点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
作者丨paopaoslam
来源丨 泡泡机器人SLAM
标题:Diffusion Probabilistic Models for 3D Point Cloud Generation
作者:Luo, Shitong, and Wei Hu
来源:CVPR 2021
编译:鞠季宏
审核:阮建源 王志勇
摘要
我们提出了一个用于点云生成的概率模型,它可以被用于多种 3D 视觉任务的基础,例如形状补全、上采样、合成和数据增强。受非平衡热力学中扩散过程的启发,我们将点云中的点视为与热库(heat bath)接触的热力学系统中的粒子,其从原始分布扩散成为噪声分布。因此,点云生成相当于学习将噪声分布转换为所需形状分布的反向扩散过程。具体来说,我们提出将点云的反向扩散过程建模为以某种隐式形状(shape latent)为条件的马尔可夫链。我们推导出训练时封闭形式的变分边界,并提供了模型的实现。实验结果表明,我们的模型在点云生成和自动编码方面取得了有竞争力的表现。代码位于 https://github.com/luost26/diffusion-point-cloud
diffusion-point-cloud。
主要贡献
• 文章受非平衡热力学中的扩散过程启发,提出了一种新的点云概率生成模型。
• 作者从点云基于形状的条件似然的变分下限推导出一个易于处理的训练目标。
• 大量实验表明我们的模型实现了在点云生成和自动编码有竞争力的性能
方法概述
本文中作者将点云看作是从概率分布中取样生成的,每一个点都是该概率分布的独立同分布(i.i.d)采样。类似于图像的扩散概率模型,当我们向点云引入噪音时,点云会逐步从与形状有关的复杂分布变为高斯分布的噪音,这一过程被称作正向扩散过程。点云的生成模型可以被视作是如图二所示的逆向扩散过程:根据一个高斯分布取样作为噪音点云,训练一个神经网络以形状为条件逐步对该噪音点云减噪,直至点云恢复其本来的形状。
Figure 2 展示了从噪音点云逆扩散生成点云的过程可以由一个马尔科夫链模型表示。点云中的每一个点由 x(T) 开始以转移概率 p****θ(x(t-1)|x(t),z) 逐步减噪(逆扩散)为目标点云 x(0)。其中 θ 表示可学习的神经网络参数参数,z 表示与形状有关的潜变量。
生成点云时,从正态分布取样w,经先验flow模型映射为形状变量z。同时从正态分布取样噪音点云 x(T)。通过一系列逆向扩散过程,噪音点云以形状z为条件逐渐减噪为目标点云 x(0)。
训练时,数据集中的点云经过编码器 φ 编码为形状潜码 z 正态分布的均值和方差,再使用与变分编码器(VAE)中的重新参数化技巧相同的方式取样形状潜码 z。如下图所示,输入点云随后经过一系列前向扩散过程逐渐变为噪音点云。训练目标函数采用条件似然概率的变分下限,以最大化似然训练数据集的似然概率。具体的损失函数定义、公式推导已经为提高训练效率选取的近似值请参考下方原文链接。
需要注意的是,变分自动编码器VAE的先验概率选用正态分布,本文应用 Flow 模型将简单的正态分布映射 p(w) 到更复杂的分布模型 p(z)。训练时,q(z|x(0) 经过逆向的 Flow 映射回 w, 损失函数包含 w 的先验概率分布和后验概率分布之间 KL 散度。
实验结果
文章选用 ShapeNet 数据集进行点云生成实验、点云重建以及点云特征提取实验。
Table 1 总结了扩散概率模型与包括GAN、Flow模型在内的其他点云生成方法相比在最小匹配距离 (MMD), 覆盖分数 (COV), 最近邻分类器准确率(1-NNA)以及 Jenson-Shannon 散度 (JSD) 上可以 SOTA 方法媲美。
下图展示了一些生成点云的样例,包含了飞机和椅子两个分类。
Table 2 列出了扩散概率模型自动编码重建性能。其重建点云与原始点云之间的 Chamfer 距离(CD) 和 动土距离 (MD) 也可以达到与 SOTA 相近的数值。
下图给出了几个点云重构的例子,最左侧一列是真实点云,然后依次是扩散模型、ShapeGF 以及 AtlasNet。
Table 3 显示扩散概率模型与其他模型在表征学习方面的比较。只使用一个线性SVM作为分类器,扩散概率模型学习的表征在ModelNet10和ModelNet40数据集上分别可以达到94.2%和87.6%的准确率,与SOTA方法相近或更好。
Figure 6展示在潜变量空间插值变换获得相应点云的变化:
总结
文章将扩散概率模型用于点云生成,推理时以形状采样为条件将噪音点云逆向扩散为目标点云;训练时将输入正向扩散为噪音点云,以从点云似然变分下限推导出的损失函数训练模型。• 实验表明这样的扩散模型实现了在点云生成、自动编码以及表征学习任务实现了有竞争力的性能。
Abstract
We present a probabilistic model for point cloud generation, which is fundamental for various 3D vision tasks such as shape completion, upsampling, synthesis and data augmentation. Inspired by the diffusion process in non-equilibrium thermodynamics, we view points in point clouds as particles in a thermodynamic system in contact with a heat bath, which diffuse from the original distribution to a noise distribution. Point cloud generation thus amounts to learning the reverse diffusion process that transforms the noise distribution to the distribution of a desired shape. Specifically, we propose to model the reverse diffusion process for point clouds as a Markov chain conditioned on certain shape latent. We derive the variational bound in closed form for training and provide implementations of the model. Experimental results demonstrate that our model achieves competitive performance in point cloud generation and auto-encoding. The code is available at https://github.com/luost26/diffusionpoint-cloud
本文仅做学术分享,如有侵权,请联系删文。
干货下载与学习
后台回复:巴塞罗那自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件
后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf
后台回复:3D视觉课程,即可学习3D视觉领域精品课程
3D视觉工坊精品课程官网:3dcver.com
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
15.国内首个3D缺陷检测教程:理论、源码与实战
16.基于Open3D的点云处理入门与实战教程
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿,加微信:dddvision
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~