您当前的位置: 首页 >  自动驾驶

暂无认证

  • 5浏览

    0关注

    95907博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

自监督知识蒸馏应用在自动驾驶的图像-激光雷达数据中

发布时间:2022-05-01 00:00:00 ,浏览量:5

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

febe1c08d2b6e18e6580015441ca29cd.png

作者丨黄浴

来源丨计算机视觉深度学习和自动驾驶

arXiv论文“Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data“,录取于CVPR‘22,作者来自法国的几个研究机构。

97b71fae1a720a296c3834a3d1539a2e.png

在自动驾驶中,分割或检测稀疏激光雷达点云目标是两项重要任务,使车辆在3D环境中安全运行。在3-D语义分割或目标检测中,性能最好的方法依赖于大量带标注数据。然而,为这些任务标注3D激光雷达数据既繁琐又昂贵。在此背景下,这里提出一种自监督预训练方法,适用于自动驾驶数据的3-D感知模型。具体来说,利用自动驾驶装置中同步和校准的图像和激光雷达传感器的可用性,将自监督的预训练图像表征蒸馏到3D模型中。因此,不需要任何点云或图像标注。

该方法关键是使用超像素(superpixel),用于在视觉相似区域中汇集3D点特征和2D像素特征。然后,训练一个3D网络进行自监督任务,将这些池化点特征与相应的池化图像像素特征进行匹配。通过超像素获得的对比区域优势在于:(1)将视觉上相干区域的像素和点组合在一起,可以产生更具意义的对比任务,从而产生非常适合3-D语义分割和3-D目标检测的特征;(2) 所有不同区域在对比损失的权重相同,与这些区域中采样的3D点数量无关;(3) 减轻由于不同传感器之间遮挡而导致的点和像素不正确匹配所产生的噪声。

代码开源:https://github.com/valeoai/SLidR

如图所示:SLidR将预先训练和固定的2D网络知识提取为3D网络。用超像素将视觉上相似区域的特征汇集在一起,包括图像以及通过超像素反投影的点云。超像素驱动的对比损失将汇集的点和图像特征对齐。这里可视化片段是手动生成的,有意放大而已。

80459946b3996434df755c61343ecadc.png

这种池化策略自然地缓解了自动驾驶数据中遇到的两个缺点:(1)它减少点-像素不正确匹配(自动执行)引起的噪声,例如,其中一个传感器遮挡引起的噪声;(2) 它平衡点密集覆盖区域和点稀疏区域之间的不对称性,否则在对比损失中会有不同的权重。后者对于汽车、行人和自行车等目标尤其重要,这些目标的采样点比车辆附近的道路更稀疏。

如图是超像素的例子:确实这个传统方法对光照比较敏感

b36da5f9ef7a70ee081bfe761e04ce1a.png

设立f: N×3→ N×D是一个具有可训练参数θ的3-D深度的神经网络,以点云为输入,每个点输出一个D-维特征。目标是在不用任何人类标注的情况下预先训练这个3D网络。为此,利用对齐和同步的激光雷达和图像数据,还利用了一个可用自监督的预训练图像网络g: Mx3→ M'xE,有训练的固定参数,将图像作为输入,并以可能较低的分辨率M′⩽ M输出E-维特征图。在这种情况下,建议将点特征f(P)与预训练的图像表征g(I1),…,g(IC)对齐来训练f(·)。下面通过超像素驱动的对比损失来实现这一目标。

点和像素特征定义如下:池化操作

baf220e786db82f9efe86ab85cdcfe7a.png

对比损失定义如下:联合网络f和两个头h一起训练

2215a6fbfdcdf0a61217bfa97db9a264.png

首先,超像素允许在视觉上相似的区域对点和像素进行分组,因此可能属于一个目标。因此,当点特征属于同一目标时(假设超像素不覆盖多个目标?),这个损失将有利于具有局部相干特性的点特征。此外,与对比像素-点比较而言,它降低了对比损失中“false negatives”的比例,因为在一个超像素内几乎相同的点之间不进行对比。然而,由于超像素倾向于过分割目标(小物体未必?),这些false negatives中的一小部分可能会保留下来,但这在无监督对比学习中很常见,在无监督对比学习中,由于实例鉴别(instance discrimination)设置,相似或相同类别的图像可以进行对比。此外,超像素内平均特征的策略限制了不同语义区域像素的影响。另一个角度来说,场景级对比学习(即,将整个点云的全局表示与相应相机帧的全局表示进行对比)对于自动驾驶数据没有意义:(a)自动驾驶场景由多个不同目标组成;(b) 由于所有场景都包含几乎相同类型的目标,例如道路、汽车和行人,因此场景级别的多样性相对有限。

其次,超像素允许自然地给对比损失中的所有区域赋予相同的权重,而不需要考虑这些区域的点采样密度。从自动驾驶系统场的典型激光雷达扫描中,采样的大多数点在道路上和车辆附近,点密度变化很大。在对比蒸馏损失中,如果考虑点和像素,而不是超点和超像素,因为计算的可处理性实际上不能完全考虑所有可能的匹配点和像素对,必须对它们进行二次采样。然而,如果该亚采样是随机形成的,没有任何适当的选择,则对比损失主要由高密度区域中的点控制。基于超像素的点特征池化,减少了匹配对的数量,从而消除亚采样的需要,现在,损失将平等地对待不同的目标,无论是在高密度还是低密度采样区域。

第三,激光雷达和图像传感器有不同的视角,各自采集从未完全同步。因此,点-像素匹配只是近似,由于传感器遮挡和运动,带来匹配不正确。对前面提取特征进行平均,可以减少虚假匹配的影响。

实验结果如下:

8312b1e3f83af4b6c16be2c93ddaa5f6.png

439158164cb3008062cf67d265527597.png

cf0a1d8f20b48f2913953b40089e103f.png

第一个限制可能出现在弱光条件下,因为计算出的超像素可能会提供不相关的目标片段,从而影响性能。

当两个超像素之间的输出图像特征相似时,例如g1c≈ g2c,会出现另一个限制。

这时候,对比损失将试图强制执行一个解决方案,即超点特征f1c与超像素特征g1c相关,但与g2c不相关,这是不可能的。虽然这个问题在对比自监督方法中很常见,但由于整个图像主干g(·)被冻结,这种情况下调整的空间可能会更小。解决这一局限性还有待于今后的工作。

如下是主干网和超像素方法不同的影响分析:

33d7892ba63095fd0a95d56f9d329096.png

5b0d97a7f431fea3c9aa6dac712eb3f1.png

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

b38d14f7843fcfc0b036fbebc5ab9f99.png

▲长按加微信群或投稿

16cfb3eb75108c7a64e796b521234d1e.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

005cfbeb3fd49296e3b1e4a932719434.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

关注
打赏
1655516835
查看更多评论
立即登录/注册

微信扫码登录

0.0944s