标题:Unsupervised Monocular Depth Estimation for Night-time Images using Adversarial Domain Feature Adaptation
来源:ECCV 2020
编译:陈圣伦
审核:李鑫
转载:泡泡机器人SLAM
摘要
大家好,今天为大家带来的文章是Unsupervised Monocular Depth Estimation for Night-time Images using Adversarial Domain Feature Adaptation。
本文研究了无约束的RGB单目夜间图像中估计深度的问题,这是一个现有文献中还没有充分解决的难题。在测试夜间的图像时,最先进的日间深度估计方法会失败,因为它们之间的很大的域偏移。通常用于训练深度估计网络的光度损失可能不适用于夜间图像,因为夜间图像没有日间图像中均匀的光照。为了解决这个问题,本文提出把夜间深度估计作为一个域适应问题,用日间图像训练的网络适应夜间图像。具体地说,使用基于PatchGAN的对抗判别学习方法,训练的编码器可以提取夜间图像与日间图像一样的特征。与现有的直接适应深度预测(网络输出)的方法不同,本文提出调整编码器网络获得的特征图,以便这些适应的特征可以直接输入预训练的日间深度解码器预测深度。因此,该方法被称为“对抗域特征适应(ADFA)”,在牛津夜间驾驶数据集实施的实验证明了其有效性。据本文所知,这是第一个无约束的夜间单目RGB图像估计深度工作,并采用完全无监督的学习过程。ADFA方法的模块化编码器-解码器架构允许编码器模块作为特征提取器,可以在其他应用中使用。实验证明自适应编码器网络获得的特征在视觉位置识别问题上优于其他方法,这进一步证明了所提出方法的有效性。
贡献
1. 本文提出了一种基于PatchGAN的域特征自适应方法,用于从无约束的单目RGB夜间图像中估计深度。据本文所知,这是第一个使用对抗判别域特征自适应从无约束的夜间单目RGB图像中估计深度的工作。
2. 本文还提出了一种基于图像迁移的夜间深度估计方法,该方法结合了图像迁移网络(如CycleGAN[44])和标准日间深度估计网络(如[18])。
3.提出的ADFA方法获得的特征在视觉位置识别问题上优于其他特征表示,这进一步证实了该方法的实用性和有效性。
算法流程
图1 方法的架构图。
方法的架构如图1所示。它包括三个步骤。第一步,在日间图像上训练编码器-解码器深度网络模型(Fd,Gd),该模型直接从RGB图像估计深度。第二步是使用Fd作为生成器,使用夜间图像进行对抗判别学习,训练新的图像编码器Fn。第三步和最后一步涉及到使用新的编码器Fn与日间解码器Gd直接从夜间图像中估计深度。
1.利用日间图像学习Fd和Gd
在无监督方法中,将图像重建误差作为损失函数对整个模型进行训练,从而不再需要明确的真实深度信息。利用立体或单目图像序列获得的空间和/或时间线索重建图像。仅使用时间线索的方法,需结合估计姿态或自运动的网络重建所需的图像。
如图1(a)所示的Depth-Net由一系列具有不同滤波器尺寸的卷积层和反卷积层组成。给定一个单目日间图像Id,图像编码器Fd生成L个不同形状和大小的卷积特征图。然后将这些特征传递给深度解码器Gd,以预测深度图D。由于仅使用单目图像序列进行训练,需要一个额外的位姿网络来估计在时域重建图像所需的相机运动。
2.使用夜间图像学习Fn
图像编码器Fn可以从夜间图像生成特征图fn,它与日间图像编码器Fd获得的日间特征图fd没有区别。因为没有成对的昼夜图像,fd和fn的损失函数没有直接的监督。本文将图像编码器Fn充当生成器,从夜间图像In生成特征图,这些特征图与使用日间编码器Fd从日间图像Id获得的日间特征图fd类似。然后,这些生成的特征图由一个判别器网络D进行评估,网络D试图不被生成器所欺骗,并给它们分配正确的标签。通过这种方式,生成器与判别器进行零和最小最大值博弈,学会从夜间图像中生成类似日间的特征图。
本文使用Patch-based判别器,它给特征图分配一个m * n的网格标量值。网格的每个值都是一个从0(夜晚)到1(白天)的概率,对应于输入特征图的一个Patch。而且,本文训练多个判别器,为编码器网络的每一层分别训练一个判别器,以进一步约束解空间。
3.损失函数
Fn和D的损失函数如下,
主要结果
表1 夜间图像深度估计的定量比较分析。顶部以60米评价,底部以40米为最大深度范围。蓝色标记的单元格值越高越好,其余的单元格值越低越好。
图2 预测深度图的定性比较。第一列不同的夜间图像。第二列显示使用光度损失获得的深度图。第三列显示图像转换网络(Cycle- GAN)的输出,然后将其应用于日间深度估计网络(第四列所示的深度图)。最后一列为ADFA方法的预测。
图3 视觉位置识别性能:与其他方法相比,本文的深度编码器获得的特征表现最好。
点击阅读原文, 即可获取本文下载链接。
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~