译者:五百英里
论文、代码地址:在公众号「3D视觉工坊」,后台回复「6D姿态」,即可直接下载。
摘要
本文的目的是估计RGB-D图像中未见过的对象实例的6D姿态和尺寸。与“实例级”6D姿态估计任务相反,我们的问题假设在训练或测试期间没有可用的精确对象CAD模型。为了处理给定类别中不同且未见过的对象实例,我们引入了标准化对象坐标空间(NOCS)-类别中所有可能对象实例的共享规范表示。然后,我们训练了基于区域的神经网络,可以直接从观察到的像素向对应的共享对象表示(NOCS)推断对应的信息,以及其他对象信息,例如类标签和实例蒙版。可以将这些预测与深度图结合起来,共同估算杂乱场景中多个对象的6D姿态和尺寸。为了训练我们的网络,我们提出了一种新的上下文感知技术,以生成大量完全标注的混合现实数据。为了进一步改善我们的模型并评估其在真实数据上的性能,我们还提供了具有大型环境和实例变化的真实数据集。大量实验表明,所提出的方法能够稳健地估计