您当前的位置: 首页 >  3d

暂无认证

  • 2浏览

    0关注

    98176博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

任务感知单目深度估计的3D目标检测

发布时间:2021-05-06 07:00:00 ,浏览量:2

标题:Task-Aware Monocular Depth Estimation for 3D Object Detection

作者:Xinlong Wang1∗, Wei Yin1, Tao Kong2, Yuning Jiang2, Lei Li2, Chunhua Shen1

机构:1The University of Adelaide, Australia 2Bytedance AI Lab

来源:CVPR 2019

编译:万应才 

审核: Yiru

转载:泡泡机器人SLAM

摘要

大家好,今天为大家带来的文章是 Task-Aware Monocular Depth Estimation for 3D Object Detection

单目深度估计能够从单个二维图像中进行三维感知,因此多年来受到了广泛的研究关注。几乎所有的方法都平等地对待图像中的前景和背景区域(“东西”)。但是,并非所有像素都相等。前景物体的深度在三维物体识别和定位中起着至关重要的作用。迄今为止,如何提高前景物体的深度预测精度还很少被讨论。本文首先分析了前景和背景的数据分布和相互作用,然后提出了前景-背景分离的单目深度估计(prevent)方法,利用分离的优化目标和译码器来估计前景和背景的深度。该方法显著提高了前景物体的深度估计性能。将预见技术应用到三维目标检测中,获得了7.5ap增益,在其他单目方法中取得了新的进展。代码将在以下位置提供:

图1 :前景深度低精度预测实例。对于每一行,左边的图片是从地面真深度图和RGB图像转换的投影点云;右图为鸟瞰特写,将基线深度估计方法预测的深度(绿色)与地面真实值(白色)进行比较。目标位置和形状的不精确对三维识别、定位和方向估计提出了挑战。

作者对深度的分布进行了调查,前景和背景的区分得出一下的结论:

1.前景像素趋向于聚合,带来越来越大的深度变化,看起来像三维空间中的截锥,而不是像道路和建筑物这样的平面。         2.前景像素只占整个场景的一小部分。例如,在KITTI对象数据集中(Geiger et al.2013),90.6%的像素属于背景,而只有9.4%的像素属于前景。                                                           3.并非所有像素都相等。

主要工作与贡献

  1. 我们对单目深度估计中前景和背景的差异和相互作用进行了开创性的讨论。我们发现不同的前景和背景深度模式会导致前景像素的次优结果。

  2. 我们建议预见,分别学习和预测前景和背景深度。具体地说,它包含了用于前景和背景区域的独立深度解码器、用于优化相应解码器的目标敏感损失函数以及简单而有效的前景-背景合并策略。

  3. 通过提出的预见,我们能够预测更优越的前景深度,而背景深度不受影响。此外,利用预测的深度图,我们的模型在三维目标检测任务中获得了7.5ap增益,有效地验证了我们的动机。

算法流程

1.KITTI数据集分析

•前景和背景深度具有不同的深度值分布、深度梯度分布和形状模式;

•前景和背景深度因其共同的相似性而相互加强;

•前景和背景深度估计的优化目标不匹配。

图3 前景和背景样本的相互作用。报告了前景和背景区域的深度估计结果(SILog)(越低越好)。前景物镜的重量在x轴上。

分割的目标

在密集预测任务中,通常损失函数可以表示为:

结果由CNN生成,CNN只有一个深度预测解码器,但目标函数是分离的。什么时候λ 设置为0,意味着只使用背景样本来监督训练,前景的结果变得很差。同样地,当出现以下情况时,在后台的性能会急剧下降:λ 设置为1.0。验证了前景深度和背景深度的分布是不同的。

2.ForeSeE

图4 整个管道的图示(a) 前景背景分离深度估计(b) 三维物体检测。

2.1 深度解码

我们在基线方法的基础上构造了一个额外的解码器(Wei等人,2019),因此有两个具有相同结构的并行解码器。其中一个解码器用于前景深度预测,而另一个解码器用于估计背景深度。具体来说,对于大小为H的图像× W型× 3,每个解码器输出一个大小为H的张量× W型× C、 其中C是深度范围类别的数量。

前景区域是从前景深度解码器的输出中裁剪出来的。背景深度范围的预测也是用同样的方法得到的。全局深度范围预测由前景和背景区域的无缝合并生成。然后使用软加权和策略将深度范围预测转换为最终深度图。

2.2  Foreground-background敏感损失函数

我们进一步加权前景和背景样本。无论是前景分支还是背景分支,损失函数都是前景样本和背景样本的加权平均,但偏差不同。这里,我们将监督前台分支的损失函数定义为:

2.3 Inference without Mask

在这里,我们提出了一种无掩模合并方法,使得一旦训练完成,就不再需要二进制掩模。在softmax操作之前,对前景和背景输出应用max池操作,该操作表示每个范围类别的置信度分数。对于每个像素的每个范围类别,保留前景和背景输出之间的最高置信分数,作为最终预测。

实验结果

1.实时细节

对于深度估计,我们遵循基线方法中的大多数设置(Wei等人,2019)。ImageNet预训练ResNeXt-101(Xie et al.2017)用作主干模型。我们对网络进行20个阶段的训练,批量大小为4,基本学习率设置为0.001。采用随机梯度下降(SGD)算法在单个GPU上对网络进行优化。λf和λb前台背景敏感损失函数设置为0.2。给定一个预测的深度图,基于针孔相机模型重建点云。我们将每个像素(UI,vi)与深度值di转换成左摄像机坐标中的3D点(xi,yi,zi)如下:

2.深度估计结果

3. 3D目标检测 

点击阅读原文, 即可获取本文下载链接。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

关注
打赏
1655516835
查看更多评论
立即登录/注册

微信扫码登录

0.0512s