- 题目:Monocular depth estimation with hierarchical fusion of dilated CNNs and soft-weighted-sum inference
- (基于膨胀卷积神经网络与软加权和推理的分层融合单目深度估计)
- 出处:2018 PR
- 作者:Li, B., Dai, Y., & He, M.
- 引用: (2018). Monocular depth estimation with hierarchical fusion of dilated cnns and soft-weighted-sum inference. Pattern Recognition, 83, 328-339.
单目深度估计是描述多种不同尺度物体的复杂合成中的一项具有挑战性的任务。尽管深卷积神经网络(CNNs)在最近取得了巨大的进展,但最先进的单眼深度估计方法仍然无法处理这样具有挑战性的现实场景。
在本文中,我们提出了一个深度端到端学习框架来解决这些挑战,它学习直接从彩色图像到相应深度图的映射。
- 首先,我们通过对比基于回归的公式,将单目深度估计作为一个多类别密集标记任务(a multi-category dense labeling task)。这样,我们就可以在语义分割等密集标记技术的基础上更进一步。
- 其次,我们用分层的方式,将前端扩张卷积神经网络(front-end dilated convolutional neural network)的不同侧输出进行融合,以此来利用多尺度深度线索进行深度估计,这是实现尺度感知深度估计的关键。
- 第三,我们提出用软加权和推理(soft-weighted-sum inference)代替硬最大推理,即:将离散的深度分数转化为连续的深度值。从而减小了量化误差的影响,提高了算法的鲁棒性。
在NYU Depth V2和KITTI数据集上的大量实验表明了我们的方法与目前最先进的方法相比的优越性。此外,在NYU V2数据集上的实验表明,我们的模型能够学习深度的概率分布。
1 介绍深度估计的目的是预测单个或多个图像的像素深度,这是一个必要的中间组件,以了解三维场景。研究表明,深度信息对识别[1,2]、人机交互[3]、三维模型重建[4]等任务都有好处。
传统的技术主要是利用多幅图像来解决深度预测问题,包括
- 多视图重建、
- 运动中恢复结构(SfM)和
- 同步定位和映射(SLAM)[]。
然而,单目单视点深度估计远远滞后于多视点深度估计。这主要是由于问题本身是不确定的,并且固有的模棱两可(illposed and inherently ambiguous):一张单独的图像本身并不能明确地提供任何深度提示(也就是说,给定一个场景的彩色图像,有无数个3D场景结构可以精确地解释2D测量值)。 当特定场景相关知识可用时,可以利用几何假设如
- "Blocks World" model [5],
- "Origami World" model[6],
- 从阴影恢复形状[7]和
- 重复结构[8],
实现单个图像深度估计或三维重建。然而,这些线索通常对具有特定结构的图像有效,并不适用于一般场景。
近年来,基于学习的单目深度估计方法,即直接从数据中学习预测场景的几何形状,得到了广泛的应用。通常,这种方法通过利用单目图像和深度之间的关系,在像素级场景标记管道中(pixel-level scene labeling pipeline)重新计算潜在的深度估计问题。全卷积神经网络被证明是解决这类问题的一种有效方法。深度卷积神经网络(deep convolutional neural network, CNN)在这个问题上已经取得了相当大的进展,
- 并取得了很好的性能[7,8,9,10,11,12,13,14]。
尽管上面的成功,最先进的单眼深度估计方法仍达不到处理现实世界中具有挑战性的复杂分解描述不同尺度的多个对象。
由于以下困难:
- 1)严重的数据不平衡问题由于透视效果,深度较小的样本远大于深度较大的样本;
- 2)与语义标注等密集预测任务相比,深度值的变化更加迅速;
- 3)深度估计需要使用大范围上下文信息(long range context information )来处理尺度模糊。
虽然已经有了各种后处理方法来
- 从deep network map中细化估计深度[7,8,9,10,11,12,13,14],
但是提高单目深度估计的瓶颈仍然是特别设计的CNN架构,这是非常令人期待的。
在本文中,我们提出了一个基于deep CNN的框架来解决上述挑战,
- 该框架以端到端方式学习从彩色图像到对应深度图的直接映射。
- 与广泛使用的回归公式相比,我们重新将单目深度估计作为一个多类密集标记问题。
- 该网络以深度残差网络[15]为基础,
- 设计了膨胀卷积和分层融合层来扩展接收域和融合多尺度深度线索。
- 为了减少量化误差的影响,提高算法的鲁棒性,我们提出了一种软加权和推理方法。
大量的实验结果表明,即使我们训练我们的网络作为一个具有多项逻辑损失的标准分类任务,我们的网络能够学习不同类别之间的概率分布。我们的框架的总体流程图如图1所示。
我们的主要贡献可以概括为:
- 我们提出了一种基于单目深度估计的深度端到端深度学习框架,该框架将单目深度估计作为一种分类任务,同时使用膨胀卷积和分层特征融合来学习尺度感知深度线索。
- 我们的网络能够输出不同深度标签之间的概率分布。
- 提出了一种软加权和推理方法,减少了量化误差(quantization error)的影响,提高了算法的鲁棒性。
- 我们的方法在室内和室外基准数据集,NYU V2和KITTI数据集上都取得了最先进的性能。
在这一节中,我们简要回顾了单目深度估计的相关工作,大致可以分为传统的基于MRF/CRF的方法和基于深度学习的方法。
基于MRF/CRF的方法:- Saxena等人的开创性工作[16,17]解决了多尺度马尔可夫随机场(MRF)模型的问题,该模型的参数是通过监督学习获得的。
- Liu[18]等人通过预测的语义标签估计深度图,使用更简单的MRF模型实现了性能的提高。
- Ladicky等人[19]展示了透视几何可以用来改善结果,并展示了场景标记和深度估计在统一框架下是如何相互受益的,其中提出了像素级分类器,可以从单个图像中联合预测语义类和深度标记。
除了这些参数方法外,其他的研究如[20,21,22]以非参数的方式重新进行了单目深度估计,其中整个深度图是从候选深度图推断出来的。
- Liu等人[21]提出了一种离散连续条件随机场(CRF),旨在避免过度平滑,保持遮挡边界。
- Anirban等人[]针对这个问题提出了一种神经回归森林模型。这些作品为单幅图像深度估计问题提供了重要的见解和线索,但它们大多使用了手工制作的特征,因此限制了它们的性能,特别是在复杂的场景。
近年来,由于有了深度卷积神经网络(CNN),单眼深度估计已经得到了极大的改进。
- Eigen et al.[23]通过训练一个大型的层叠深度CNN,使得单目深度估计得到了很大的改进。然而,部分由于在网络模型中使用了全连接层,他们的网络必须用非常大的规模的数据进行训练。
- 相比之下,Li等[7]提出了基于patch的CNN框架和层次化的CRF模型对原始估计深度图进行后处理,显著减少了所需的训练图像数量。
- Liu等[8]提出了CRF-CNN联合训练架构,可以联合学习CRF和CNN的参数。
- Wang et al.[9]提出了一种用于联合语义标注和单眼深度预测的CNN架构。
- Chen等人[24]提出了一种利用相对深度标注估计度量深度的算法。
- 最近,Laina等人[12]提出用Huber损失代替L2损失来处理深度分布的长尾效应。
- Cao等人[11]证明,将深度估计作为分类任务,可以获得比L2损失回归更好的结果,但对于成功进行的分析还不够。
另外,与我们的方法不同的是,他们在测试阶段使用hard-max推理。Xu等人[13]提出了多尺度连续CRFs,以更好地提取层次信息,提高最终结果的平滑度。我们的分层信息融合策略比[13]简单得多,但我们也取得了比较的结果。
无人监督的单目深度学习除了上面的方法使用ground truth深度地图监督网络学习,有另一组方法,使用新颖的观点,综合监督网络学习,利用立体影像的可用性和图像序列[25][14][26][27],引出了无人监督的深度运动(Unsupervised-Depth-Motion)。
- Garg等人[25]提出利用图像重建损失训练一个单目深度估计网络,采用泰勒近似将损失线性化。
- Godard等人的[14]用更容易获得的双目立体影像代替了训练过程中显式深度数据的使用,这加强了相对于左右图像产生的差异之间的一致性,与现有方法相比,提高了性能和鲁棒性。
- 沿着这条管道,Zhou等人[26]提出了一种无监督学习框架,用于基于图像扭曲(image warping)对非结构化视频序列进行单目深度和摄像机运动估计,以评估图像误差。
- Kuznietsov等人[27]采用半监督方式学习深度,其中稀疏 ground truth 深度和光一致性共同使用。
- Ummenhofer等人[28]训练了一个端到端的卷积网络,从连续的、无约束的图像对计算深度和摄像机运动,其中架构由多个堆叠的编解码器网络组成。
这些无监督的方法的关键监督信号来自于新颖的视图合成的任务:给定一个输入视图的场景,合成一个从不同的相机姿势看到的场景的新的图像。实质上,对经过校正的立体图像或连续的图像帧已经隐式地编码了深度信息。
我们的工作也与基于FCN(全卷积网络)的稠密标注相关。
- Long等[29]提出了用于语义分割的全卷积神经网络,该神经网络被广泛应用于其他密集标注问题。
- Hariharan等[30]提出低层CNN feature对于边界保持和目标定位效果更好。
- Yu等[31]最近证明,扩张(膨胀)的卷积可以在保持特征图分辨率的同时,扩大相应神经元的感受野。
- Chen[32]在语义问题上成功地利用了扩张卷积,并展示了如何在预先训练好的CNN上构建它们。