大多数最先进的三维目标检测器严重依赖激光雷达传感器。由于在三维场景中的预测不准确,基于图像的方法与基于激光雷达的方法在性能上仍有很大差距。本文提出了深度立体几何网络(DSGN)的方法,通过在可微的体积表示:三维几何体上检测三维物体,有效地编码了三维规则空间的三维几何结构,显著地减小了这一差距。通过这种表示,可以同时学习深度信息和语义线索。本文首次提供了一个简单有效的基于单级立体的3D检测流水线,它以端到端的学习方式联合估计深度和检测3D对象。该方法优于以前的基于立体的3D检测器(在AP方面大约高出10个),甚至达到了KITTI 3D目标检测排行榜上的几个基于LiDAR方法相当的性能,代码将在后期公开。
本文主要有以下创新点:
1. 为了弥补二维图像与三维空间之间的差距,在平面扫描体中建立立体对应约束,并将其转化为三维几何体,从而可以对三维几何体和语义线索进行编码,用于三维规则空间的预测;
2. 设计了一个单一的统一网络,用于提取用于立体匹配的像素级特征和用于目标识别的高级特征。本文的pipelines可以联合估计场景深度和检测三维世界中的3D Object,从而实现实际应用;
3. 提出的网络性能优于官方KITTI排行榜上所有其它基于立体的3D物体探测器(AP高出10个)
网络结构有效三维表示的关键在于对三维空间的精确三维几何信息进行编码,立体相机为计算深度提供了明确的像素对应约束。为了设计一个统一的网络来利用这一约束,本文探索了能够同时提取立体对应的像素级特征和语义线索的高级特征的深层结构。假设