点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
精读机器人顶级会议文章
标题:Real-Time Semantic Stereo Matching
作者:Pier Luigi Dovesi,et al.
来源:ICRA2020
播音员:
编译:尹双双
审核:李永飞
提取码: u838
摘要
大家好,今天为大家带来的文章是——实时语义立体匹配,该文章发表于ICRA2020。
场景理解在机器人技术,自我导航,增强现实和许多其他领域中至关重要。要完全完成此任务,自动化机制必须推断
感测到的场景的3D结构(知道它看哪里)及其内容(了解其所见)。为了完成两项任务,训练能推断语义分割和立体匹配对深度的深度神经网络通常是最可选的方法。具体来说,语义立体匹配可以通过以下任意一种方案解决:为两个任务单独训练的独立模型,或构造联合的端到端架构。尽管如此,到目前为止,两种解决方案均效率低下,因为前一种需要两个向前传递,后一种情况单个网络复杂。但是共同解决两个任务通常在准确性方面是有益的。本文提出了一种紧凑而轻巧的实时语义立体匹配架构。我们的框架以多阶段方式进行从粗到精的估算,允许:
i)在嵌入式设备上可以非常快速地推断,与最新的网络相比,边缘准确性高;ii)根据具体情况要求,在高端GPU以及在嵌入式Jetson TX2上实验结果相近,证实语义立体匹配与独立任务相比的优越性,并突出显示我们的框架在任何硬件上的应用适配性。
主要贡献
本文主要贡献为:
1、学习了两个任务的通用特征表示,并采用了独立的解码器来估计准确的语义分割和视差图。
2、通过设计多阶段堆栈解码器,RTS2Net会针对这两项任务产生从粗到精的估算,减少内存和运行时耗。
算法流程
图1 RTS2Net架构,蓝色表示共同特征表示,绿色表示语义分割,黄色表示视差和紫色代表的最后共同进行的后处理。
将语义立体匹配转换为分段和视差估计的联合优化可互惠互利。例如,在涉及反射面的挑战性图像进行深度估计时,可以通过知道它们属于汽车来改进。另一方面,深度信息可以帮助减少歧义,例如,当处理植被分割和地形时。
1、架构概览
为便于利用共享参数,网络设计在视差回归和语义分割之间保持对称结构。分割和视差估计都只在低分辨率上完全计算,通过更高的分辨率残差逐步完善阶段。
图2 RTS2Net 架构图概览。从输入的立体匹配对(蓝色)中提取特征:(黄色)用于立体匹配的共同点,(绿色)语义参考。最后,视差估计和语义分割的输出结合(紫色)改进视差估计。对于每个模块,给出卷积层数和输出特征数目,网络的因子c超参数的倍数。
2、联合特征提取器
两个初始的3*3卷积提取c特征,然后不断地降采样和池化,将分辨率降至1/4,1/8,1/16,1/32,以便为两个任务提取通用的并且丰富的特征表示。特征图的通道数分别对应2c,4c,8c,16c。这里c取1对于视差估计就足够了,但是对于语义分割还有所欠缺。
3、视差网路
基于之前的金字塔网络设计,利用一堆解码器来估计粗略
到精细的视差图。首先,通过将右图特征逐步偏移(较小值就可以满足原始分辨率上所有的视差)到最远距来从左图特征中直接提取一个近似匹配代价,在1/16最低分辨率(1/32由于分辨率太小而舍去)图像上提取的特征建立基于距离的cost volume。然后利用3D卷积块对其正则化,在进行批量归一化和ReLU,分别提取16,16和1个特征。
4、语义分割网络
如视差分支一样,编码器计算出的共享特征将通过附加的2D卷积处理。另外,1/32分辨率上的特征仍然被用来确定粗略分割的较大影像内容区域。语义分割也有3个阶段,每个阶段都在1/16,1/8和1/4上计算每个像素分割为基于KITTI的某一类别的概率分数。
5、协同视差优化模块
我们在语义类概率和视差量之间执行级联的残差。1)压缩语义嵌入,使其具有类似于视差cost volumn维度,2)将压缩的语义特征与视差volumn连接起来;3)然后通过三个2D卷积层处理混合column,产生视差残差结合到原始的再应用soft-argmin运算符。
6、目标函数
总结网络的输出,分别对应3个不同的分辨率,我们有3个粗略的视差,3个语义分割结果和3个优化的视差结果。考虑到视差回归,用smooth L1 loss定义:
提出一种双层级损失权重策略:
由于我们是在多任务设置下进行的,因此我们希望保持分割的影响独立于内部定权或类别分配的选择。因此,我们设计以下加权方案:
主要结果
表1,在KITTI数据集上进行评测RTSSNet和AnyNet
表3,Ablation study(c=8),KITTI 2015数据集上
图3,KITTI上定性结果。从左到右:参考影像,语义和coarse to fine视差图
表5,KITTI2015在线基准立体匹配数据集实验结果
表6,KITTI2015分割数据集上的实验结果
Abstract
Scene understanding is paramount in robotics,self-navigation, augmented reality, and many other fields. To fully accomplish this task, an autonomous agent has to infer the 3D structure of the sensed scene (to know where it looks at) and its content (to know what it sees). To tackle the two tasks, deep neural networks trained to infer semantic segmentation and depth from stereo images are often the preferred choices. Specifically, Semantic Stereo Matching can be tackled by either standalone models trained for the two tasks independently or joint end-to-end architectures. Nonetheless, as proposed so far,
both solutions are inefficient because requiring two forward passes in the former case or due to the complexity of a single network in the latter, although jointly tackling both tasks is usually beneficial in terms of accuracy. In this paper, we propose a single compact and lightweight architecture for real-time semantic stereo matching. Our framework relies on
coarse-to-fine estimations in a multi-stage fashion, allowing: i) very fast inference even on embedded devices, with marginal drops in accuracy, compared to state-of-the-art networks, ii) trade accuracy for speed, according to the specific application requirements. Experimental results on high-end GPUs as well as on an embedded Jetson TX2 confirm the superiority of semantic stereo matching compared to standalone tasks and highlight the versatility of our framework on any hardware and for any application.
点击阅读原文,输入提取码: u838 即可获取本文下载链接。
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~