CVPR 2021 Oral | 室内动态场景中的相机重定位

发布时间：2021-04-06 07:00:00 ，浏览量：0

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

关键词：动态场景，相机重定位

导读

本文是对发表于计算机视觉和模式识别领域的顶级会议 CVPR 2021的 Oral 论文 “Robust Neural Routing Through Space Partitions for Camera Relocalization in Dynamic Indoor Environments”（通过在空间划分中鲁棒的神经路由实现室内动态场景的相机重定位）的解读。

该论文由北京大学陈宝权研究团队与山东大学、北京电影学院、斯坦福大学和 Google Research 合作，针对室内动态变化场景的相机重定位问题，提出在场景空间划分中进行路由的思想，记忆场景静态信息的同时感知场景动态信息，从而实现鲁棒的相机位姿预测。

实验证明，该方法显著提升了动态变化场景中的相机重定位效果。

论文链接：https://arxiv.org/abs/2012.04746

（点击文末“阅读原文”跳转论文链接）

左：在场景空间划分中路由静态像素(绿色)和剔除动态像素(红色)

右：相机运动轨迹预测值(蓝色)与真实值(绿色)对比

研究背景

相机重定位研究在已知环境中根据 RGB-D 图像推算相机的位置姿态，是实现场景建模、增强现实、机器人导航等技术的基础。近年来，最先进的研究工作通常 (A) 先记忆和推测所观测到不同对象的位置；(B) 再通过这些对象位置的相对关系反算自身位姿。对于 (A)，被观测对象的位置信息通常表示为图像像素坐标和场景世界坐标之间的对应关系（2D/3D-3D correspondences），使用决策树、神经网络等机器学习模型实现；对于 (B)，通常表示为局部坐标系与世界坐标系之间的刚体变换，使用 Perspective-n-Point、orthogonal Procrustes 等非机器学习算法求解。

相机位姿和观测得到的RGB-D图像

核心问题

现实环境中包含着多种多样的动态成分，造成场景日新月异的变化。这些动态变化给相机重定位带来了麻烦：一方面，动态变化引入噪声导致对应关系匹配失败；另一方面，匹配正确的对象可能由于位置变化导致相机位姿求解错误。由于动态变化难以预料、无法穷尽，所以不易使用监督学习的方法直接学习场景中的动态变化。即使应用 RANSAC 等鲁棒估计算法，也难以准确求解动态场景下的相机位姿。因此，动态变化场景中的相机重定位面临挑战。

日常生活中动态变化的室内场景：家具移动，光照变化等

本文方法

为解决上述问题，我们提出基于空间划分的神经路由算法 NeuralRouting。我们的直观见解是，场景中的动态变化通常表现为几何对象的三维位置改变。于是，我们从几何角度出发建模场景空间。

首先，我们将场景三维空间进行层次划分构建树形结构（space partition tree），树的每个节点对应场景中的一个区域。随着树的层次加深，场景区域划分由粗粒度走向细粒度。基于区域划分，我们使用神经网络学习图像像素在树中的路由（routing），从而记忆视觉对象在不同粒度场景空间中的位置。得益于空间划分，通过显式地设定错误路由（模拟三维位置改变），我们可以构造动态变化对象的标注，以此学习场景中的动态变化，将其作为一个额外的路由分类，称为离群节点（outlier）。如果一个像素属于静态区域，它将被路由到树的叶子节点，以该节点对应的场景区域作为预测结果；如果一个像素属于动态区域，它将被路由到离群节点，被视为噪声点拒绝进行区域预测。因此，图像中的每个像素如果不被拒绝，那么就会被映射到场景空间，从而建立了图像像素和场景空间之间鲁棒的对应关系。通过这些对应关系，我们使用基于 Kabsch 算法的 RANSAC 框架求解相机位姿。

以二维场景和3层4叉树作为例子，展示空间划分和路由模型

实验结论

具体地，我们使用 n 层 k 叉树对场景进行划分。其中 k=2^z，对应于 z 次坐标轴二分。例如，当 z=3 时，x, y, z 轴的依次二分使我们得到经典的八叉树模型。对于树的每一层，路由表示为类别数量为 k+1 的分类任务，对应当前节点的 k 个子节点和1个离群节点。由于树的各层分别对应于不同粒度的场景区域，在每一层的路由中我们使用相应尺度的感受野，从而兼顾全局和局部特征。在实验中，我们使用5层16叉树预测像素和场景的对应关系，使用 preemptive RANSAC 求解相机位姿。RIO-10（动态场景）和 7-Scenes（静态场景）数据集的实验结果证明，我们提出的 NeuralRouting 算法在动态场景中的相机重定位能力显著超越所有相关方法，在静态场景中也达到一流水平。

RIO-10和7-Scenes数据集的实验结果，红色标注最优，蓝色标注次优

总结

针对室内动态变化场景，我们提出可以感知动态点的相机重定位算法 NeuralRouting。该方法 (1) 通过三维空间划分建模场景几何，(2) 使用神经网络记忆静态视觉对象的空间位置，(3) 感知并去除动态视觉对象的干扰。实验证明，该方法有效地提升了动态变化场景中相机重定位效果。

图文 | 董思言

Visual Computing and Learning (VCL)

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

关注

打赏

1688896170

查看更多评论

CVPR 2021 Oral | 室内动态场景中的相机重定位

[ 申请 ]友情链接：