您当前的位置: 首页 > 

暂无认证

  • 3浏览

    0关注

    101061博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

TANDEM:基于深度多视图立体匹配进行实时跟踪和稠密建图(CoRL 2021)

发布时间:2022-05-27 07:00:37 ,浏览量:3

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

cd06b503cf80bbea6336d29d31e6210f.png

作者丨泡泡机器人

来源丨泡泡机器人SLAM 

标题:TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view Stereo

作者:Lukas Koestler  Nan Yang Niclas Zeller Daniel Cremers

机构:Technical University of Munic,Artisense,Karlsruhe University of Applied Sciences

来源:CoRL 2021

编译:GUOCHENG

审核: zhuhu

052aaf3f3ba5aab338f7365637fadc3a.png

摘要

0f0b43090693d69112463fd3debf0b54.png

大家好,今天为大家带来的文章是 

TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view Stereo

在本文中,提出了一种实时单目跟踪和稠密重建框架。TANDEM采用基于关键帧的滑动窗口进行BA来估计位姿。为了提高鲁棒性,提出了一种新的前端追踪算法,使用从全局模型渲染的深度图执行密集直接图像对齐,全局模型是根据深度估计增量构建的。 为了预测密集的深度图,提出了Cascade View-Aggregation MVSNet(CV A-MVSNet),它利用整个活动关键帧窗口,通过分层构造具有自适应视图聚合的3D成本量来平衡关键帧之间的不同立体基线。最后,将预测的深度图融合为一致的全局图,并用截断符号距离函数(TSDF)体素网格表示。

ec31e51c272726da993a31fb3745a2d7.png

主要工作与贡献

a4fc4999083ec84b67ba1fa98cb26426.png

  1.   一种新的实时单目密集SLAM框架,融合了直接法VO和基于学习的MVS重建;

  2. 利用全局TSDF模型渲染深度的单目密集跟踪前端;

  3. 一种新的MVS网络CVA-MVSNet,通过使用视图聚合和多阶段深度估计来利用整个关键帧窗口数据;

23fbb48d483fa314f9c20ea565dc0902.png

算法流程

4eaddb88f6d26074ade99e24920acfaf.png

b5abe93916d31fcdeae98965308350a4.png

图1

TANDEM由三部分组成:单目视觉里程计、基于CVA-MVSNet的密集深度估计和体积建图。视觉里程计利用单目视频流和3D TSDF模型渲染的密集深度图,以滑动窗口方式估计相机位姿。给定关键帧及其估计位姿,提出的CVA MVSNet预测关键帧的稠密深度图。为了重建完整且全局一致的3D模型,深度图通过体素散列融合到TSDF体素网格中。最终TANDEM能够从单目相机实现实时跟踪和高质量稠密重建。

Visual Odometry

大多数VO系统中,通过在多个帧中跟踪一组稀疏的特征点来估计相机姿态,表现出了良好的性能[37,39]。然而,使用更多的点进行联合优化并不一定会进一步提高估计位姿的准确性,而且会增加系统运行时间[37]。因此,在本文的VO系统中,使用了直接稀疏里程计(DSO)提出的直接稀疏窗口优化后,。在直接图像对齐前端使用从全局TSDF模型渲染的密集深度贴图,该模型是我们增量构建的。在大量实验中,证实了密集跟踪前端和稀疏后端优化的组合在保持快速运行的同时显著提高了跟踪性能

前端跟踪提供相机姿态估计,并作为窗口优化后端的初始化过程。在DSO中,由优化窗口的所有点生成稀疏深度图,基于该深度图进行新帧和旧帧的Direct image alignment从而求解当前帧到最近关键帧的位姿变化。然而,由于深度图比较稀疏,该方法并不鲁棒。我们通过加入密集的深度图DnTSDF来解决这个问题,DnTSDF 通过构建的TSDF模型渲染得到的。对于当前关键帧n中的每个像素p,基于稀疏VO点DnDSO指定深度值,或者基于渲染的密集深度DnTSDF(TSDF有效时)。由于增量构建的TSDF模型,并没有包含所有像素的深度值,但与仅使用稀疏深度值相比,它要密集得多。接近稠密的组合深度图将会用于两帧的Direct image alignment。

CVA-MVSNet

bbc760e5f335a0dafcca1e909dd71db9.png

CVA-MVSNet基于多视图立体[48]的原理,并进一步利用深度神经网络[23]来估计参考帧的深度图。CVA-MVSNet通过使用级联成本体积分层估计深度,并使用自适应视图聚合模块有效地聚合所有关键帧的深度特征,克服了deep MVS网络的高内存需求。

如图1b所示,首先使用共享权重的2D U-Net网络提取参考帧的多个尺度特征。参考帧的深度估计分为三个阶段,首先解释单阶段估计深度,然后描述如何将多阶段深度估计组合到一起。 

Single Stage Depth Estimation

每个阶段都需要使用深度图构建代价体积(cost volume),对于参考帧的每个像素, 我们定义深度假设Dshyp,Dshyp尺度为(Ds,Hs,Ws)。利用深度假设、相对位姿、相机内参,通过differentiable warping[49]对每个帧的深度特征进行几何变换, 构建得到每一帧的特征体积。

为了将多视图特征体积的信息聚合到一个成本体积中,大多数deep MVS方法都采用相同的短发处理不同的视图,并使用基于差异的成本度量: 

34795a1fcb44d3e1b51e4b0d3aeed14e.png

但是,在滑动窗口中,关键帧在优化窗口中的分布并不均匀,通常新关键帧之间的距离比旧关键帧之间的距离小得多。这会造成图像存在遮挡和不重叠现象。因此,基于差异的成本量是不合适的,因为它对不同的观点具有同等的权重。为了解决这个问题,我们采用自适应视图聚合[27]来构建代价体积: 

0abe643b6f04e4af437179bb8b34afff.png

上式中视图聚合权重Wsi是由三维卷积网络对特征体积进行处理得到的,该聚合模块可以自适应地降低错误信息的权重。 

采用3D U-Net 对Cs进行正则化处理,最后通过 softmax non-linearity得到概率体积Ps。最终深度值为:

03c06066988157becf72b2a44dc4b1df.png

Hierarchical Depth Estimation

该网络利用前一阶段估计的深度去估计精度更高的深度Dshyp,每个阶段的深度估计都使用了上一阶段的深度作为先验信息。首先对上一阶段的深度图进行上采样,然后以上采样得到的点为中心点使用预定义的偏差对Ds 其进行采样,训练时使用L1损失函数计算三个阶段的Loss,并使用Loss总和作为最终Loss。 

f1e32d05e8fc6cc1addf06e3709c7af2.png

实验结果

20f88e83b23cabe45660f0ff2460844e.png

Depth comparison 

631c1028b18ef9511893555f90ab7ef4.png

Qualitative comparison

1f84e4e039979309e53fad5176cad574.png

Pose evaluation on EuRoC

f4005704fed9604f865dcfdb12c002ba.png

Depth evaluation on ICL-NUIM

94e90d356ad93c182bd2a632a0901980.png

Depth evaluation on EuRoC 

88cfb7895df55dcff37f755bc9073108.png

Comparison to iMAP

011625b48ca1850ca78cbb4c4017f432.png

点击阅读原文, 即可获取本文下载链接。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

52ed17439698d57b09acc374ea09c9af.png

▲长按加微信群或投稿

27eea7d3abb14fc7343090aab55f1998.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

0c725c949aae663dacbcfd6b839996b4.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

关注
打赏
1655516835
查看更多评论
立即登录/注册

微信扫码登录

0.0517s