作者丨黄浴@知乎
来源丨https://zhuanlan.zhihu.com/p/427923316
编辑丨3D视觉工坊
最近arXiv在2021年10月11日上传论文“Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo“,已经被WACV‘22录取,作者来自瑞士ETH、谷歌和比利时KU Leuven。

该文提出一个多视图光度立体视觉问题(MVPS,multi-view photo- metric stereo problem)的解决方案。利用 MVPS 实验设置的图像形成模型从图像中恢复目标的密集 3D 重建。其用光度立体视觉(PS) 图像形成模型获取表面方向,并与多视图神经辐射场(NeRF,neural radiance field)表征方法混合,恢复目标的表面几何形状。
与之前 MVPS 的多步框架不同,该框架的位置、等深度(iso- depth)轮廓或方向测量是独立估计后再融合,易于实现。该方法由深度光度立体视觉网络(deep photometric stereo network)估计表面法线,同时执行多视角图像神经渲染(neural rendering)。这里沿观察方向的每个 3D采样点,采用目标表面法线渲染 MVPS 图像,而不是通过3D占用信息采用体积空间的密度梯度。
本文重点是 MVPS 设置,其中主体被放置在旋转底座上,每次旋转使用一个 LED 光源一次捕获多张图像。如图所示:

这种方法的主要动机是用于目标3D 采集的主动距离扫描策略,例如结构光、3D 激光扫描仪和RGB-D 传感器,要么校准复杂,要么是噪声测量,或者两者兼而有之。此外,这些测量技术通常得到有异常值的不完整距离数据,需要认真细化。
在场景刚性(刚性Lambertian纹理表面)的假设下,传统多视图立体视觉(MVS)使用跨图像特征对应来重建密集目标几何结构。最近,神经视图合成方法已显示出此任务的巨大潜力。然而,他们的 3D 重建质量远不能令人满意。
光度立体视觉(PS )方法,给定不同光源照射的多幅图像,估计物体的表面法线,但所有图像都是从同一相机视点拍摄。它非常容易恢复独立于深度估计的表面法线,并且适用于无纹理目标和带细节的非Lambertian表面。
然而,表面元素之间缺乏约束,以及全局几何约束的缺乏,无法正确计算每个表面组件的相对位置。此外,大多数光度立体视觉(PS)方法假设各向同性(isotropic)材料目标,并且可能无法处理具有各向异性材料(anisotropic)的目标,例如一块木头。
近年来,视图合成方法,特别是用于场景表示的神经辐射场(NeRF)方法,提出了一个有趣的想法,用多视图像恢复场景的 3D 几何结构。NeRF 引起了对 3D 计算机视觉的新一波兴趣,其用全连接深度神经网络隐式表示场景几何和辐射信息,通过多层感知器 (MLP) 隐式编码表面体积密度和颜色来呈现照片般逼真的视图。
一旦训练 MLP,NeRF就可以使用估计的体积密度来恢复 3D 形状。这样,可以统一的方式对隐式目标的表面法线和辐射场进行建模,但可能需要体积占用信息。
如图是整个MVPS概览:深度光度立体视觉网络用光度立体视觉(PS) 图像从每个视点预测目标的表面法线。在密度空间中引入来自光度立体视觉网络输出的梯度知识对多视图神经辐射场(NeRF)进行建模,以解决 MVPS。

为简单起见,假设有反射表面目标的单视图情况,其外观可以通过带表面法向量的双向反射分布函数 (BRDF,bidirectional reflectance distribution function) 进行编码。如下是成像公式:

作者用深度神经网络从输入数据中学习复杂的BRDF。利用基于观测图(observation map)的CNN模型,估计标定设置下的表面法线。这个PS网络架构,类似DenseNet。
备注:感谢微信公众号「3D视觉工坊」整理。
与其他监督方法不同,该方法对各向同性材料有旋转不变性,可以很好地处理非结构化图像和光线,最重要的是,它能以可接受的推理时间提供已知最佳性能。
对每个像素,观测图包含所有光源而归一化的观察强度值。在普通PS 设置中,光源以同心方式定位。因此,光源位置和对应的 x-y 坐标投影之间的一对一映射是可能的。
如图所示是观测图构建算法:
如下是体渲染公式:

其近似为

给定具有已知相机姿态的多视图图像,NeRF用 MLP 近似假设的连续 5D 场景表示,该 MLP 将5D表示映射到 RGB 颜色和体积密度。表面元素的渲染取决于场景中发射光和双向反射分布函数 (BRDF) ,描述在以表面元素法向量为中心的半球上累积的表面反射率和颜色属性。
如下是渲染方程:
一般来说,光并不总是正交地照射到表面上。限制辐射场近似表示的光反射率和光辐射率函数,作者调整颜色函数,加入图像渲染的密度梯度概念。
该方法依靠深度光度立体视觉网络,估计表面法线,克服 BRDF 建模复杂性,并提供出色的表面细节。因此,作者方法比起图像渲染中纠缠在一起的表面法线表征方式,具有固有的优势。
对体渲染公式进一步改写为:
然而,MVPS 设置通常处理非纹理表面,其中图像特征没有多大帮助。尽管如此,该设置的一个明显优势是可以从着色(shading)捕获更好的表面细节。为简单起见,用表面法线来调节体渲染(volume rendering)并避免依赖图像特征。
该方法绕过显式的体积占用信息,将密度梯度信息混合到连续体渲染中。具体来说,将每个 3D 样本点表面法线沿观察方向送给神经渲染网络(neural rendering network)。
遵循神经辐射场(NeRF)的优化策略,用傅立叶特征对沿射线的每个采样位置、观察方向和光度立体表面法线进行编码。为有效估计连续积分,用分层抽样(stratified sampling)方法来划分近和远成 N 个均匀间隔的离散样本,即:

采用MLP优化如下损失函数:
用分层体积采样策略(hierarchical volume sampling strategy),对每条射线上 N 个查询点,密集评估神经辐射场网络(NeRF)。为此,首先用分层采样策略采样多点并优化粗网络。在粗网络已知输出分布的情况下,用逆变换采样(inverse transform sampling)来优化细网络。
实验基准方法包括
·Patch match network
·IDR(implicit differentiable rendering)
·NeRF
·CNN-PS
多步融合MVPS方法的基准包括
·robust MVPS(“Multi-view photometric stereo: A robust solution and benchmark dataset for spatially varying isotropic materials”. IEEE T-IP, 2020)
·benchmark MVPS(“Robust multiview photometric stereo using planar mesh parameterization”. IEEE T-PAMI, 2016)
一些实验结果比较如下:





本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程推荐:
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~