您当前的位置: 首页 >  3d

暂无认证

  • 2浏览

    0关注

    100807博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割

发布时间:2022-04-27 07:00:00 ,浏览量:2

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

5ce0b8e2ddb705d3f957c25bc9e8db76.png

作者丨黄浴

来源丨计算机视觉深度学习和自动驾驶

arXiv2022年4月上传论文“M2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation“,作者来自多所大学和公司,包括香港大学、新加坡国立、英伟达、多伦多大学、Vector研究院(多伦多)和加州理工。

d6417cba1a7db768c23174599ec2896f.png

本文提出M2BEV,一个多摄像机图像输入、在BEV空间中联合执行3-D目标检测和地图分割的统一框架。与以往大多数分别处理检测和分割的工作不同,M2BEV使用统一的模型推断这两个任务,并提高了效率。M2BEV将多视图2D图像特征有效地转换为汽车坐标系下的3D BEV特征。这种BEV表征非常重要,可以让不同的任务共享一个编码器。该框架包含四个重要的设计,对准确性和效率都有好处:(1)有效的BEV编码器设计,减少了体素特征图的空间维度。(2) 一种动态框分配策略,用学习-匹配(learning-to-match)来分配带有锚点的真实3D框。(3) BEV中心重加权,更大的权重对较远距离的预测强化;(4)大规模2D检测预训练和辅助监督。M2BEV的内存效率很高,以更高分辨率图像作为输入,推理速度更快。在nuScenes数据的实验表明,M2 BEV在3D目标检测和BEV分割方面都达到了最好效果,最佳单一模型分别达到42.5 mAP和57.0 mIoU。

项目网页:https://xieenze.github.io/projects/m2bev/

现有基于摄像头的方法不适用于360度多任务自动驾驶感知。三种主流基于摄像头的方法包括:(1)单目3D目标检测方法,例如CenterNet和FCOS3D,分别预测每个视图中的3D边框。需要额外的后处理步骤来融合不同视图的预测,并删除冗余的边框。这些步骤通常不可靠,也不可区分,不适合与下游规划任务进行端到端联合推理。(2) 基于伪激光雷达的方法,例如pseudo- LIDAR。这些方法可以重建具有预测深度的3-D体素,但对深度估计中的错误非常敏感,通常需要额外的深度标注和训练的监督。(3) 基于Transformer的方法。最近,DETR3D使用了一个transformer框架,将3D目标查询投影到多视图2D图像,并以自上而下(top-down)的方式与图像特征交互。尽管DETR3D支持多视图3D检测,但它不支持BEV分割和多任务处理,因为它只考虑目标查询,而没有致密的BEV表征。

如图就表明了两种不同的方法:上图是传统的任务特定的流水线,而下图是M2BEV方法。

4377a4c1da53c538045ef9eb254bf03f.png

具体来说,为了使该框架在计算资源有限的现实场景中可用,作者提出几个经验设计,显著提高精确度和GPU内存效率。如图所示是M2BEV的流水线:给定时间戳T的N幅图像以及相应的内和外相机参数作为输入,编码器首先从多视图图像中提取2D特征,然后将2D特征反投影到3D 自车坐标系,以生成BEV特征表征。最后,采用特定任务头来预测3D目标和地图。

1353bd4ff2ab74c5bc5d82f66abd47c1.png

如图是2D-3D反投影的细节:(a)/(b)显示了3D检测和BEV分割方面原始基准工作的显著性能改进,这意味着这些设计非常重要。(c) 演示M2BEV中高效的2D→3D特征反投影,其沿光线反投影3D体素中的2D特征。

db93d43ebaf7de2e16c013d101602e2c.png

这里,假设沿光线的深度分布是均匀的,这意味着沿摄影头光线的所有体素都填充了和2D空间中单个像素对应相同的特征。这种统一的假设减少学习参数量,提高计算和存储效率。

给定4D张量体素V输入时,提出一种“空间到通道(S2C)”操作,将V从4D张量转换为3D张量,避免了3D CNN。

学习“FreeAnchor: Learning to match anchors for visual object detection“. NeurIPS, 2019,用于3-D检测,即动态边框分配策略。

推广中心度(Centerness)概念对正样本重加权,其定义为:

71114f105632210da9a444e17a0a0523.png

如图是改进示意图:(a) 不同范围内的BEV中心度和IoU改善;(b) 2-D检测预训练。首先对2-D检测任务的模型进行预训练,然后将主干权重转移到3-D任务中;(c) 将自车空间的3D 真实框投影到2D图像空间,生成2D 真实框。

e4d75f3d4a7525da866679611f7aa727.png

训练损失函数定义如下:

e6c6f80d8371c5a6c46e2b92c11dd3dc.png

其中

0d2cd4d39a3210d95aecd460d927c1d0.png

51a9a842657bb4a0706df8d6e3969feb.png

bc2b3947d1c674842abf11defe3aac6f.png

实验结果如下:

f1bc0f0e12621a7770319f1da2c819e6.png

35c3e6cb8420cd93f03584cb960939eb.png

347d5cd5e6495b68874acabaa38e2dcd.png

b0e4ae54500cef5c47a95ce4e88deaa7.png

备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

edd480984dfea19fa7395c85b6130ec1.png

▲长按加微信群或投稿

697ad5dd8ee6a6daddd68a1055a4e49e.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

f9608a6b8fdfc40e5f2c1ad7c02c7d3c.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

关注
打赏
1655516835
查看更多评论
立即登录/注册

微信扫码登录

0.0492s