您当前的位置: 首页 > 

SLIM:自监督点云场景流与运动估计(ICCV 2021)

发布时间:2022-07-26 12:00:53 ,浏览量:3

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

6eb35d1f332c3f9b6ed55a88324a7e4f.jpeg

作者丨泡泡机器人

来源丨 泡泡机器人SLAM

标题:SLIM: Self-Supervised LiDAR Scene Flow and Motion Segmentation

作者:Stefan Andreas Baur, David Josef Emmerichs, Frank Moosmann, Peter Pinggera1, Ommer and Andreas Geiger

来源:ICCV 2021

编译:cristin

审核:zh

95c5f3f9292594af153cb04472bce1e6.png

摘要

587768d83c525258d72bc8c369ee6ad3.png

      大家好,今天为大家带来的文章SLIM: Self-Supervised LiDAR Scene Flow and Motion Segmentation

近年来,出现了几种基于点云的三维场景流自监督学习框架。Sceneflow固有地把每个场景分成多个移动agent和遵循刚体运动的聚类。然而,现有的方法并没有在他们的自我监督训练程序中利用数据的这一特性,这可以改善和稳定流量预测。基于鲁棒刚性自我运动估计和原始流预测之间的差异,我们生成了自监督运动分割信号。预测的运动分割,反过来,我们的算法用于关注静止点,聚集在场景的静态部分的运动信息。我们学习我们的模型端到端通过反向传播梯度通过kabch的算法,并证明这能提高ego-motion估计,从而改善场景流估计。在消融研究中,我们进一步分析了在联合运动分割和场景流时的性能增益。我们还提出了一种新的网络架构的三维激光雷达场景流,使其能够处理比以前训练中点数量多一个数量级。

project_home:https://baurst.github.io/slim/

478b9029d25daa2d3322e59f3613de05.png

主要工作与贡献

ce80193e14111d2c7e4c0e125ea03c45.png

1. 我们的方法是第一种基于点云的场景流估计方法,它基于自我监督训练将点分为“运动”和“静止”两类。

2. 我们的方法在基于点云的场景流估计方面显著优于以前的方法,特别是在对以前未见过的数据的泛化方面,我们在多个数据集上演示了这些数据,包括自监督和完全监督设置。

3. 我们新颖的网络架构可以处理比目前弱的或自我监督的方法多得多的点。

a385250ea5e59a429f3f1b8e238f2c78.png

方法

cb718c80f04acb6a2cbb269bd0ce650e.png

三维场景流估计使用两个连续的输入点云Pt∈RN×3, Pt+1∈RM×3为第一个点云中的每个点预测一个三维位移向量,代表每个点的运动w.r.t。

438b7e4708cb59cfbfa3a9226a5b88e7.png

图1 我们的网络架构概述。卷积门控循环单元(ConvGRU)根据预测的flo进行相关查找,迭代预测流和日志的更新

Point Cloud Encoder: 利用[20](共享权值)引入的支柱特征网(PFN)将输入点云Pt, Pt+1分别编码为BEV伪图像,得到的值It, It+1∈RH×W ×C再由骨干处理。我们对所有数据集使用相同的BEV范围,覆盖自车周围−35m≤x, y≤35m的正方形,x, y为横轴。我们使用的分辨率为h =W= 640,这对应于一个大约11cm的柱子大小。

Flow Backbone: 我们的主干很大程度上受到raft[39]的启发,它是用来预测图像上的密集光流的。它的核心组件是递归地对隐藏状态进行更新阻塞和流预测,每次迭代产生更精细和更准确的流。因此,我们利用独立编码的输入图像构造相关体,利用之前的流量预测查找相关值,从而将流量引导到更精确匹配的像素区域。尽管RAFT是为密集光流设计的,但我们表明,它在稀疏分布的BEV域也非常适用,并且可以很好地推广。与常规图像相比,BEV域由更分散、更小的区域和非常独立的运动模式(移动交通参与者)组成。

我们采用RAFT[39]来处理流量预测,并迭代更新两个额外的对数,如图2所示。第一个logit 映射Lcls被用作输出信号,将点分类为静止的或移动的世界框架。流量预测的准确性可以在一个场景中有很大的变化,因为无特征的表面不适合流量估计。第二个logit Lwgt被用来克服这个问题,允许网络表明它对流量估计的置信度。输出解码器使用这两种对数来聚合和提高静态和动态场景元素的准确性。

Lclsis的处理与流的处理类似,但置信度加权的任务与流的预测更紧密地联系在一起,因此数据流在信息处理过程中是耦合的。除了这个小改动之外,我们保留了RAFT的一般框架,包括不仅在输入流上对梯度归零,而且在每个更新块的输入日志上也对梯度归零。

Output Decoder: 首先,输出解码器使用这些BEV映射对输入点云pt的每个点进行注释,并使用一个流矢量查找和两个logits Lcls,i,Lwgt,根据其相应的柱单元的值。通过这样做,我们假设柱子中的所有点的行为都非常相似。我们相信这对于几乎所有室外测量的激光雷达点云都是正确的,因为所有移动的交通参与者都需要占用一些场地。

此外,大多数激光雷达系统的光束不是朝上的。请注意,尽管我们的网络架构专门用于这种方式,但我们的损失框架适合任何3D场景流预测,不需要假设2D流。为了正则化和改进静态场景上的流量预测,输出解码器将分类为still的点聚合为单个相干的刚性运动测程变换Tr∈R4×4。

我们使用kabch算法[17],利用奇异值分解计算可微的Tr值。每个点的权重wi决定了每个流矢量预测对最终结果Tr的影响程度。我们首先对置信度对数应用sigmoid激活,然后基于分类对数对它们进行掩码。然后,我们将所有权重归一化,使其总和为1,以保证数值的稳定性。

置信度logits只通过计算Tr接受梯度更新,因此是端到端训练,无需进一步的监督

83955815dfee3514d8abbc4ae5fc936c.png

置信度logits只通过计算Tr接受梯度更新,因此是端到端训练,无需进一步的监督

e85a740dd13c77d1cf35e8c91262c6c7.png

图2 对KITTI-SF场景的方法定性比较。根据AccR准确估计的流量是蓝色的,不准确的预测是红色的。从左到右:PointPWCNet (PPWC), PoseFlowNet (PF), Ours

c3ae6cc17a1542bc7015c56bf570460e.png

实验结果

21ca5996d8a98bb3054eaca338e6cb62.png

1110b56da2a1f28af391f7fc7a5e12b4.png

ae4f02bd01dd3e94b1c6e7d79f7e40d6.png

dd1ca6b61d79ad570e4546f0857cd59d.png

对于传

fcdfb886969d5d2071712f6a60621fb8.png

558b574541301248188ac359cd5f1400.png

图3 左:地面真实运动分割,右:预测动态,更高的移动概率更亮

点击阅读原文, 即可获取本文下载链接。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

8be83136c6e32a9e776e0e2c24157693.jpeg

▲长按加微信群或投稿

b65e4e821470570ea050892f3c1a54fe.jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

4f725d91ae411236a6c398cc0b03e8f2.jpeg

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看

关注
打赏
1688896170
查看更多评论

暂无认证

  • 3浏览

    0关注

    106365博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录

0.0440s