论文标题:PlaneTR: Structure-Guided Transformers for 3D Plane Recovery
录用信息:ICCV2021
代码地址:https://git.io/PlaneTR
1、背景
从单个RGB图像中恢复或重建出场景中的3D平面结构是3D视觉中的一个基本问题,并且由于其具有的不适定性而非常具有挑战性。这个问题的本质目的是检测场景中平面实例的区域并估计出它们在图像中的3D平面参数(例如表面法线和偏移)。作为3D场景的基本特征结构,重建平面在增强现实、视觉SLAM和室内场景理解等下游任务中具有广泛的应用前景。
一些早期的方法倾向于利用线段、相交点和消失点等几何元素以自下而上的方式解决这个问题。这些几何元素通常首先被分成不同的组,然后在一系列严格的假设(例如曼哈顿世界)和规则下分析特征以恢复3D平面。这些基于结构的方法虽然在一定程度上取得了成功,但也存在几何图元检测缺失或错误、技术流程复杂、场景受限等问题,影响其性能和应用。最近,一些基于神经网络的方法以自上而下的方式直接从输入图像中预测具有3D平面参数的平面实例mask。这些方法放松了基于结构的方法的约束,并取得了不错的性能。然而,它们主要利用来自CNN的上下文信息,却忽略图像中对3D平面恢复有用的结构特征。
在本文中,作者选择在基于学习的框架下利用几何结构来解决室内场景的3D平面提取问题。尽管存在各种低级几何图元,但作者发现与其他几何图元相比,线段构建出的3D平面通常包含更全面的场景3D信息,例如特征点、边缘和消失点。
近期一些CNN方法使用密集图