您当前的位置: 首页 >  网络

惊鸿一博

暂无认证

  • 3浏览

    0关注

    535博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

论文笔记_S2D.17-2018-ECCV-通过卷积空间传播网络(CSPN)的相似性学习进行深度估计

惊鸿一博 发布时间:2020-09-14 15:29:30 ,浏览量:3

基本情况
  • 题目:Depth Estimation via Affinity Learned with Convolutional Spatial Propagation Network 
    • 通过卷积空间传播网络的相似性学习进行深度估计

  • 作者:Xinjing Cheng⋆, Peng Wang⋆ and Ruigang Yang

    • Baidu Research, Baidu Inc.

  • 引用:Cheng, X., Wang, P., & Yang, R. (2018). Depth estimation via affinity learned with convolutional spatial propagation network. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 103-119).

  • 开源代码:https://github.com/XinJCheng/CSPN

  • KITTI深度测试数据集:The KITTI Vision Benchmark Suite

摘要

单幅图像的深度估计是计算机视觉中的一个基本问题。

  • 本文提出一种简单而有效的卷积空间传播网络(CSPN)来学习深度预测的相似矩阵。
    • 具体地说,我们采用了一种有效的线性传播模型,该模型通过递归卷积运算来进行传播,并通过一个深卷积神经网络(CNN)来学习相邻像素之间的相似度。

我们将所设计的CSPN应用于给定单个图像的两个深度估计任务:

  • (1)细化现有的现有技术(SOTA)方法的深度输出;
  • (2)通过在传播过程中嵌入深度样本来将稀疏深度样本转换为密集深度图。

第二项任务的灵感来自于激光雷达的可用性,它提供稀疏但精确的深度测量。我们在NYU v2[1]和KITTI[2]数据集上对所提出的CSPN进行了实验,结果表明,与以往的SOTA方法相比,我们提出的方法不仅提高了深度图的质量(例如深度误差减少30%),而且提高了深度图的速度(例如,速度提高了2到5倍)。

介绍

从单个图像的深度估计,即预测到相机的每个像素距离,具有从增强现实(AR)、自动驾驶到机器人技术的许多应用。对于单个图像,最近的估计每像素深度的努力通过利用深度的全卷积神经网络[3,4]以及来自室内[1,5,6]和室外[2]的大量训练数据而获得了高质量的输出[ 2, 7,8]。改进主要在于

  • 使用高级网络(例如VGG [9]和ResNet [10])更准确地估计全局场景布局和缩放比例,
  • 并通过反卷积操作[11],跳连接[12]或更高版本更好地恢复本地结构-投影[4]。

然而,在仔细检查当代方法的输出[13](图1(b))时,预测深度仍然模糊,并且与给定的图像结构(如对象轮廓)无法很好地对齐。 最近,刘等 [14]提出通过空间传播网络(SPN)的深层CNN,直接学习图像相关的相似性(affinity ),与手动设计的图像分割相似性相比,产生了更好的结果。但是,它的传播是以扫描线或扫描列的方式进行的,本质上是串行的。

例如,当从左向右传播时,最右边一列的像素必须等待最左边一列的信息来更新其值。直观的,深度细化通常只需要局部环境而不是全局环境。在这里,我们提出了卷积空间传播网络(CSPN),其中所有像素的深度在局部卷积上下文内同时更新。

远程上下文是通过循环操作获得的。图1显示了一个示例,从CSPN(e)估计的深度比从SPN(d)和双边过滤(c)估计的深度更准确。在我们的实验中,我们的并行更新方案与SPN等串行方法相比,在速度和质量上均带来了显着的性能改进。

实际上,我们证明了所提出的策略也可以轻松扩展,以将稀疏深度样本转换为给定相应图像的密集深度图[15,13]。该任务可广泛应用于机器人技术和自动驾驶汽车,在这些机器人中,通常通过LiDAR获取深度感知,而LiDAR通常会生成稀疏但准确的深度测量。通过将稀疏的测量结果与图像结合起来,我们可以生成一幅全帧密集深度图。为此,我们考虑了算法的三个重要要求:

(1)恢复的密集深度图应与图像结构对齐;

(2)稀疏样本的深度值应保留,因为它们通常来自可靠的传感器;

(3)稀疏深度样本与其相邻深度之间的过渡应平滑且自然的。

为了满足这些要求,我们首先基于[13]中的网络添加镜像连接,如图1(h)所示,生成的深度更好。然后,我们尝试将传播(propagation)嵌入SPN中,以保持在稀疏点的深度值(keep the depth value at sparse points)。如图1(i)所示,它比没有深度样本的SPN产生更好的细节和更低的误差(图1(d))。最后,将SPN更改为我们的CSPN可获得最佳结果(图1(j))。

可以看出,仅500个深度样本的恢复深度图就可以更准确地估计场景布局和比例。我们在两个流行的深度评估基准(即NYU v2 [1]和KITTI [2])上使用标准评估标准对我们的方法进行了实验。在这两个数据集中,我们的方法都比以前基于深度学习的最新技术(SOTA)显着更好(大多数关键指标相对提高了30%)[15,13]。更重要的是,与SPN相比,它非常有效,可产生2-5倍的加速度。

总而言之,本文具有以下贡献:

  • 1.我们提出了卷积空间传播网络(CSPN),它比以前的SOTA传播策略[14]更有效,更准确地进行深度估计,而又不牺牲理论上的保证。
  • 2.我们将CSPN扩展到通过使用提供的稀疏深度到传播过程中,将稀疏深度样本转换为密集深度图的任务。
    • 它确保将稀疏输入深度值保留在最终深度图中。
    • 它可以实时运行,非常适合机器人技术和自动驾驶应用,这些应用可以将LiDAR的稀疏深度测量与图像数据融合在一起。
相关工作

深度估计和增强/细化长期以来一直是计算机视觉和机器人技术的核心问题。在此,由于篇幅的限制,我们对这些研究作了几个方面的总结。

通过CNN和CRF进行单视图深度估计

近年来发展起来的深度神经网络(DCN)为单幅图像的逐像素深度估计提供了强大的特征表示。许多算法都是通过监督方法发展起来的[16,3,4,17],半监督方法[18]或无监督方法[19,20,21,22]。并添加跳连接和镜像连接。另一些人试图通过附加条件随机场(CRF)[23,24,25]和联合训练[26,27]来进一步改进估计的细节。然而,测量邻近像素相干性的关联是人工设计的。

深度增强

传统上,深度输出也可以通过图像滤波这样的明确设计关系,而有效地增强[28,29],或通过全变差(TV)实现数据驱动[30,31],并通过将更多先验合并到扩散偏微分方程(PDEs)来学习扩散[32]。但由于缺乏有效的学习策略,在大规模复杂视觉增强中受到了限制。最近,基于深度学习的增强在超分辨率图像[33,34]和深度[35,36,37,38]上都取得了令人印象深刻的结果。网络采用低分辨率的输入输出高分辨率的结果,并进行端到端的训练,其中输入和输出之间的映射是隐式学习的。然而,这些方法只是在完美的低分辨率和高分辨率地面真实深度图上进行训练和实验,通常还需要一个黑箱模型。在我们的场景中,输入深度和地面真实深度都是不完美的,例如来自低成本激光雷达或网络的深度,因此需要一个显式的扩散过程来指导如SPN的增强。

学习关联性的空间扩散

带深度CNN的关联矩阵,由于其理论支持和保证[39],近年来受到人们的高度关注。

  • Maire等人[40]训练了一个deep CNN直接预测关联矩阵的实体,在图像分割上表现出良好的性能。但是,这种关联性后面是一个独立的不可微分的光谱嵌入求解器,它不能监督端到端预测任务。
  • Bertasius等人[41]引入了一种随机游走网络,该网络优化了语义分割的像素级关联性目标。但它们的关联矩阵还需要地基-真稀疏像素对的监督,这限制了像素之间的潜在连接。
  • Chen et al.[42]尝试显式建模用于域变换的边缘映射,以提高神经网络的输出。
  • 与我们的方法最相关的工作是SPN[14],其中学习一个大的亲和矩阵扩散转化为学习一个局部线性空间传播,产生了一个简单而有效的输出增强方法。但是,如第1节所述,深度增强通常需要局部上下文,可能没有必要通过扫描整个图像来更新一个像素。实验表明,我们提出的CSPN具有更高的效率和更好的结果。
给定稀疏样本的深度估计

由于在增强三维感知[15]中应用广泛,将稀疏深度的任务引入到稠密深度估计中。与深度增强不同,所提供的深度通常来自低成本的激光雷达或单线激光传感器,生成的地图的有效深度只有几百个像素,如图1(f)所示。最近,Ma等人[13]提出将稀疏深度图作为ResNet基于[4]的深度预测器的附加输入,其结果优于仅使用图像输入的CNN深度输出。但是,输出结果仍然是模糊的,并不能满足我们在第1节中讨论的对深度的要求。在我们的例子中,我们直接将采样深度嵌入到扩散过程中,在这个过程中,所有的需求都得到了满足和保证。

还有一些作品在没有图像输入的情况下直接将稀疏的3D点转换为密集的点[43,44,45],而稀疏点的密度必须足够高才能显示场景结构,这在我们的场景中是无法实现的。

方法

空间传播网络(SPN)与卷积空间传播网络(CSPN) 背景知识Learning Affinity via Spatial Propagation Networks在这里插入图片描述

原则上,CSPN也可以使用和积(sum-product)算法从循环信念传播(loopy belief propagation)中得出[46]。 但是,由于我们的方法采用线性传播(linear propagation),因此,当在图形模型中只是二元势(pairwise potential)和L2重建损失(L2 reconstruction loss)的特例时,效率很高。 因此,为了使其更准确,我们在扩散过程领域中将我们的策略称为卷积空间传播。

在这里插入图片描述 网络结构

在这里插入图片描述

结果 数据集 NYU V2上对比

在这里插入图片描述

数据集KITTI上

在这里插入图片描述

总结

在本文中,我们提出了卷积空间传播网络(CSPN),可以与任何类型的CNN共同学习。 可以认为是线性扩散过程,可以保证收敛。 与先前了解相似性的空间传播网络[14]相比,CSPN不仅在深度细化方面效率更高(提高了2-5倍),而且更加准确(提高了30%以上)。 通过将稀疏深度样本嵌入到传播过程中,我们还扩展了CSPN,这比其他SOTA方法提供了更好的改进[13]。 由于我们的框架是通用的,因此在将来,我们计划将其应用于其他任务,例如图像分割和增强。

参考
  • 14. Liu, S., De Mello, S., Gu, J., Zhong, G., Yang, M.H., Kautz, J.: Learning affinity via spatial propagation networks. In: Advances in Neural Information Processing Systems. (2017) 1519–1529
关注
打赏
1663399408
查看更多评论
立即登录/注册

微信扫码登录

0.0428s