您当前的位置: 首页 > 

DeepFusion:基于单视图深度和梯度预测的单目SLAM实时稠密三维重建

发布时间:2021-04-07 07:00:00 ,浏览量:1

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

标题:DeepFusion: Real-Time Dense 3D Reconstruction for Monocular SLAM using Single-View Depth and Gradient Predictions

作者:Tristan Laidlow, Jan Czarnowski ,Stefan Leutenegger

来源:ICRA 2019

编译:黄群军

审核:Lionheart

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

     虽然由稀疏单目SLAM系统创建的基于关键点的地图有利于相机位姿跟踪,但对于许多机器人任务,可能需要稠密的三维重建。深度相机的相关解决方案受限于工作范围和室内空间,而且基于最小化帧间光度误差的稠密三维重建系统通常约束较差且存在尺度模糊问题。为了解决这些问题,我们提出了一个三维重建系统,利用卷积神经网络(CNN)的输出,为包含度量尺度的关键帧生成完全稠密的深度图。我们的DeepFusion系统能够在GPU上实时的进行三维重建。它利用网络学习的不确定性,以概率的方式将半稠密多视图立体算法的输出与CNN的深度和梯度预测相融合。虽然深度学习网络只需要在每个关键帧上运行一次,但我们可以优化深度地图通过结合新的帧图像,以便不断利用新的几何约束。根据其在合成数据集和真实世界数据集上的性能表现,我们证明了DeepFusion系统至少具有和其他同类的系统一样好的性能。

主要贡献

1.提出了一种三维重建技术DeepFusion该系统能够根据单目SLAM系统提供的RGB图像和尺度模糊的姿态信息,实时的生成大规模的稠密深度图。

2.使用网络预测的深度梯度作为对相邻像素的约束,以确保重建中的全局一致性,并利用深度学习的不确定性,以概率方式融合不同输出。

算法结构

图1 DeepFusion的框架

DeepFusion用一系列关键帧深度图表示观察到的几何体。对于每个新的RGB图像,系统从单目SLAM系统获取姿势,然后使用已有的方法更新活跃的关键帧的半稠密深度估计值。如果在半稠密估计中,摄像机的平移量大于λtrans或内部特征点数小于λinliers,则新的关键帧将被创建。为了保持较高的帧速率,本文的网络输出对于每个关键帧只生成一次。利用CNN,我们从新的关键帧图像中预测了log对数深度、log对数深度梯度和相关的不确定性。这种类型的深度表示在数学运算上更适合于网络预测而且当为负深度值的时候是有意义的,并且两个log深度之间的差能够表示两个深度值之比,具有尺度不变性。本文还选择预测图像平面上x和y方向的log对数深度梯度,而不是曲面法线,以保持优化问题的线性,因为这避免了需要执行点积和归一化的操作。单视图深度预测是一个高度欠约束的问题,在实践中,网络似乎更容易对有细密纹理的局部几何图形进行精确预测,而不是绝对的每个像素的深度。故分别预测绝对log对数深度值和log对数深度梯度,同时利用各自的不确定性来反映网络在这两个不同任务中能力的差异。如果没有新的关键帧被创建,则当前的半稠密深度图和网络输出将融合更新当前深度图。以下是本文算法实现的关键点:

A.网络结构

本文采用了U-Net网络结构,同时增加三个或者更多的相同解码器来预测log深度值的不确定性、log深度梯度和log深度梯度值不确定性。所有的图像输入输出分辨率为256*192。网络学习中采用最大似然函数作为代价函数,进而用来预测均值和方差。

B.半稠密估计

对于关键帧中具有充足纹理特征的每一个像素点xi,会沿着极线搜索其深度值dsemi,i,以使五个等距空间点的平方差之和最小化。如果存在该像素当前深度估计值,则在间隔dsemi,i-2δsemi,i至dsemi,i+2δsemi,i上搜索其值。要不然搜索在整个极线上进行。xi表示关键帧上一个像素点,TWC0表示关键帧的估算位姿,TWC1表示参考帧的估算位姿,则有灰度误差表达式如下:

本文采用有限差分来近似误差函数的雅克比:

采用如下公式近似表示每一次半稠密测量的不确定性,然后将半稠密测量的深度与不确定性转化为对数空间中与深度学习网络的输出进行匹配:

C.优化

通过最小化如下代价函数来更新当前帧深度预测:

半稠密代价函数项对已有效估算得到的半稠密对数深度值的像素集施加一元约束。

其中深度学习网络的深度代价函数项对所有像素的融合深度图施加了一个一元约束,具体如下所示:

为了在将半稠密和深度学习网络的深度值融合在一起的同时保持全局一致性,我们添加了一个额外的代价函数项,该函数项在给定像素及其四个领域像素点之间施加成对约束:

主要结果

图2 关键帧选择的效果图,其中顶部结果来自ICL-NUIM Office2数据集,中部来自ICL-NUIM LivingRoom1数据集,底部来自TUM RGB-D fr2 desk数据集。从左至右:输入图像、地面真实深度、半稠密深度估计、网络深度预测、x方向网络深度梯度预测、y方向网络深度梯度预测、优化后的深度图。

图3 来自SceneNet RGB-D数据集的网络预测示例。从左至右:输入图像、log对数深度预测、log对数深度不确定性预测、x方向log对数深度梯度预测、x方向log对数深度梯度不确定性预测、y方向log对数深度梯度预测、y方向log对数深度梯度不确定性预测。

表1 不同的系统在ICL-NUIM和TUM RGB-D数据集上的重建精度的比较(在地面真实值的10%以内)

表2 DeepFusion正确深度估计所占百分比实验结果

表3 从正确的深度值所占百分比分析成对约束对重建精度的重要性

Abstract

While the keypoint-based maps created by sparse monocular Simultaneous Localisation and Mapping (SLAM) systems are useful for camera tracking, dense 3D reconstructions may be desired for many robotic tasks. Solutions involving depth cameras are limited in range and to indoor spaces, and dense reconstruction systems based on minimising the photometric error between frames are typically poorly constrained and suffer from scale ambiguity. To address these issues, we propose a 3D reconstruction system that leverages the output of a Convolutional Neural Network (CNN) to producefully dense depth maps for keyframes that include metric scale. Our system, DeepFusion, is capable of producing real-time dense reconstructions on a GPU. It fuses the output of a semidense multiview stereo algorithm with the depth and gradient predictions of a CNN in a probabilistic fashion, using learned uncertainties produced by the network. While the network only needs to be run once per keyframe, we are able to optimise for the depth map with each new frame so as to constantly make use of new geometric constraints. Based on its performance on synthetic and real world datasets, we demonstrate that DeepFusion is capable of performing at least as well as other comparable systems.

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

关注
打赏
1688896170
查看更多评论

暂无认证

  • 1浏览

    0关注

    106142博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录

3.9027s