论文题目:Single-Stage 6D Object Pose Estimation
论文地址:在公众号「3D视觉工坊」,后台回复「6D对象姿势估计」,即可直接下载。
摘要: 最新的6D姿态估计框架首先依靠深度网络在3D对象关键点和2D图像位置之间建立对应关系,然后使用基于RANSAC的Perspective-n-Point(PnP)算法的变体。但是,此两阶段过程不是最佳的:首先,它不是端到端可训练的。第二,训练深层网络依赖于替代损失,该损失不会直接反映最终的6D姿态估计任务。
在这项工作中,本文介绍了一种直接从对应关系中回归6D姿势的深度架构。它为每个3D关键点输入一组候选对应关系,并说明每个组内对应关系的顺序无关紧要的事实,而各组(即3D关键点)的顺序是固定的。本文的体系结构是通用的,因此可以与现有的对应关系提取网络一起使用,从而生成单阶段6D姿态估计框架。本文的实验表明,这些单阶段框架在准确性和速度方面始终优于两阶段框架。
一、简介最新的方法遵循两个阶段的范式:首先使用深层网络在3D对象点与其2D图像投影之间建立对应关系, 然后使用基于RANSAC的Perspective-n点(PnP)算法来计算6个位姿参数。这种范例虽然有效,但存在一些弱点。首先,用于训练深度网络的损失函数不会反映真实的目标估计,但会编码替代任务,例如将检测到的图像投影的2D误差最小化。但是,这种误差与姿势精度之间的关系不是一对一的。如图1(a)所示,对于最新框