点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
小黑导读
论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
摘要
基于立体图像对的深度估计已经成为计算机视觉中探索最多的应用之一,以往的方法大多依赖于完全监督学习设置。然而,由于难以获得准确和可伸缩的地面真实数据,训练全监督方法是具有挑战性的。作为替代方案,自我监督的方法正变得越来越流行,以减轻这一挑战。在本文中,作者介绍了H-Net,一个深度学习框架,用于无监督立体深度估计,利用极面几何来改进立体匹配。第一次,一个暹罗自编码器体系结构用于深度估计,允许相互信息之间的校正立体图像被提取。为了加强对偶注意约束,设计了对偶注意机制,该机制在学习对偶信息时,更加注重同对偶线上特征的对应关系。通过在注意机制中加入语义信息,立体匹配进一步增强。更具体地说,最优传输算法用于抑制注意和消除在两个摄像机中不可见的区域的异常值。在KITTI2015和Cityscapes上进行的大量实验表明,作者的方法在缩小与完全监督方法的差距的同时,优于目前最先进的无监督立体深度估计方法。
论文创新点
在本文中,作者按照无监督学习设置,并引入了H-Net,一种新的端到端可训练网络,用于给定校正立体图像对的深度估计。所提出的H-Net有效地融合了立体对中的信息,并将极面几何与基于学习的深度估计方法相结合。综上所述,作者在本文中的主要贡献是:
作者设计了一种连体码-连体译码网络结构,融合了立体图像对中的互补信息,增强了它们之间的通信。据作者所知,这是第一次将该体系结构用于深度估计。
作者提出了一种双向极注意模块来加强特征匹配的极注意约束,并强调了在校正立体图像对中沿同一极线的特征之间的强关系。
作者通过使用最优传输算法加入新的时尚语义信息并过滤出离群特征对应,进一步增强了所提注意模块。
框架结构
H-Net架构。
基于最优传输的互极注意(OT-MEA)块将OT检索合并到MEA模块中
实验结果
KITTI Eigen分裂的定性结果。深度预测均为左输入图像。作者在最后一行的H-Net生成了具有更多细节的深度地图,并且能够更好地区分一个对象中的不同部分,如建筑,路边行人,灌木丛和树木
Cityscapes数据集的定性结果。作者的H-Net生成非常接近的预测与地面的真相。
结论
在本文中,作者提出了一种新的网络,H-Net,自监督深度估计,实现了最先进的深度预测。通过设计Siamese编码器Siamese解码器体系结构,利用互极关注,制定最优传输问题,有效地探索和融合了立体图像对之间的全局距离对应和满足极面约束的强相关特征对应。作者展示了这如何使公共数据集的整体性能受益,以及它们如何一起给评估措施带来了巨大的改进,表明该模型有效地解决了其他自监督深度估计方法的局限性,并缩小了监督方法的差距。
论文链接:https://arxiv.org/pdf/2104.11288.pdf
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~