1.要解决的问题
单目3D物体检测核心问题是如何准确估计物体的深度信息。已有方法尝试显式地或隐式地学习深度信息。
显式地学习存在的问题:1:深度估计的过度置信。一些方法[14,38,39,62]通过深度估计网络在一个单独阶段显式学习深度信息,但是后续的3D检测模块在没有考虑深度置信度的问题的情况下直接利用估计的深度图,会导致网络深度估计中的过度置信问题。2:非End-to-End。为了防止3D检测任务影响深度图的估计效果,3D检测模块与深度估计模块一般需要分开训练。
隐式地学习存在的问题:1:特征拖尾效应。[50,46]直接将特征从图像空间转换至3D空间,最后转换至鸟瞰角度,会导致特征拖尾效应(feature smearing effects,即3D投影空间中的多个位置会出现相似的图像特征),进而会增加物体定位难度。
作者想要获取具有高质量(即弱特征拖尾效应)的鸟瞰特征实现端到端的3D物体检测,那么如何获取高质量的鸟瞰特征?
2.提出的方法
提出了分类深度分布网络(CADDN):引入深度监督信号,预测逐像素的分类深度分布,将丰富的上下文特征信息投影到3D空间中的适当位置