您当前的位置: 首页 > 

Depth by Poking:从自监督抓取学习深度估计

发布时间:2020-11-18 07:00:00 ,浏览量:0

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

标题:Depth by Poking: Learning to Estimate Depth from Self-Supervised Grasping

作者:Ben Goodrich, Alex Kuefler, William D. Richards

来源:2020 IEEE International Conference on Robotics and Automation (ICRA)

编译:林只只

审核:柴毅,王靖淇

摘要

准确的深度估计在机器人操纵方向仍是一个开放问题。甚至包括结构化光和LiDAR传感器在内的最新技术在反射或透明表面上也无法发挥作用。我们通过训练神经网络模型来解决此问题,该模型使用来自机器人与其环境之间的物理相互作用的标签来从RGB-D图像估计深度。我们的网络会针对输入图像中的每个像素,预测机器人的末端执行器试图抓住或戳向相应位置时其到达的z位置。给定自主抓取策略的情况下,我们的方法是自监督的,因为可以通过正向运动学恢复末端执行器位置标签,而无需人工注释。尽管收集这样的物理交互数据是昂贵的,但是对于先进的操纵系统的训练和常规操作是必需的。因此,该深度估计器在为其他任务(例如,抓握,推动,放置)收集数据时相当于“免费”的。我们证明了在困难的,工业级的混杂箱数据集上,我们的方法比传统的结构化光传感器和无监督的深度学习方法所获得的均方根误差要低得多。

图1  通过尝试抓取操作来收集训练数据。收集的样本包括杂乱箱的俯视图和抓取点的投影像素坐标(黑色“ x”),以及图b中工具提示沿z轴的标签位置

图2 实验环境包含从箱子中拾取物品的Kuka LBR iiwa。用于实验的RealSense摄像头安装在工作空间周围,可以获得箱子从上到下的视图。左上方显示了高架摄像机的视图

图3 从我们的实验中挑选的示例。上方图片显示了来自消费品数据集的示例。这些包括盒子,瓶子,航空器,翻盖和其他在零售与电子商务任务中常见的物品。下方图片显示了示例挑战项目,这些挑战项目已知对于结构化光传感器特别困难,具备例如光泽,透明或反射特点。

图4 模型结构

图5 像素层面训练。损失基于单个像素进行计算。红色箭头表示梯度流,灰色箭头表示监督信号

图6 在示例图像上的估计结果

图7 对数刻度直方图显示原始RealSense误差(上),模型的误差分布(中)和模型的误差分布除以预测的标准偏差(下)。左边是消费品数据集,右边是挑战项目数据集

图8 数据丢弃图体现了基于该数据点的预测方差的百分比,RMSE随着数据删除而如何降低。该曲线是从不同初始化训练的几个模型上求平均值的。阴影区域显示1个标准偏差

图9 Q-Q图显示学生化残差(t分布的残差值)的分位数与高斯分位数的比较

表1 估计值和真值工具提示深度的RMSE。在两个数据集上进行计算。数值的单位为毫米。

Abstract

Accurate depth estimation remains an open problem for robotic manipulation; even state of the art techniques including structured light and LiDAR sensors fail on reflective or transparent surfaces. We address this problem by training a neural network model to estimate depth from RGB-D images, using labels from physical interactions between a robot and its environment. Our network predicts, for each pixel in an input image, the z position that a robot’s end effector would reach if it attempted to grasp or poke at the corresponding position. Given an autonomous grasping policy, our approach is self-supervised as end effector position labels can be recovered through forward kinematics, without human annotation. Although gathering such physical interaction data is expensive, it is necessary for training and routine operation of state of the art manipulation systems. Therefore, this depth estimator comes “for free” while collecting data for other tasks (e.g., grasping, pushing, placing). We show our approach achieves significantly lower root mean squared error than traditional structured light sensors and unsupervised deep learning methods on difficult, industry-scale jumbled bin datasets.

如果你对本文感兴趣,请点击点击阅读原文下载完整文章。

百度网盘提取码:2c3j

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

关注
打赏
1688896170
查看更多评论

暂无认证

  • 0浏览

    0关注

    106595博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文
立即登录/注册

微信扫码登录

0.0641s