ECCV 2022 | AvatarCap：清华最新开源的单目人体捕捉方案

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨人脸人体重建

来源丨人脸人体重建

本文作者来自清华大学，作者提出了一种基于可驱动 Avatar 的单目人体捕捉技术，首先从少量的人体彩色扫描数据重建可驱动的人体模型，然后基于此模型，将单目彩色相机作为输入，捕捉视频中的人体运动。文章代码已开源。

主页：http://www.liuyebin.com/avatarcap/avatarcap.html

代码：https://github.com/lizhe00/AvatarCap

Overview

文章的简要流程如下图所示，首先从少数一些扫描数据重建出目标可驱动的人体模型，然后再输入目标对象的单目彩色视频，捕捉视频中人体的运动。

Avatar Creation：输入目标对象少量 (20左右) 带纹理的人体扫描数据，输出其可驱动的人体模型；
Avatar-conditioned Volumetric Capture：输入目标对象的单目彩色视频，捕捉视频中的人体模型。

Teaser

Avatar Creation

首先从扫描数据学习一个可驱动的人体 avatar 用于人体体捕捉。参考 SCANimate，作者首先将 SMPL 人体模型拟合到原始扫描数据，并通过逆向蒙皮 (inverse skinning) 运算将扫描数据变换到标准姿态空间。所以目标是从这些标准姿态空间下的扫描数据构建一个由姿态相关的隐式函数表达的可驱动人体 avatar。由于可用的带纹理扫描数据较少，作者提出分解的隐式函数来保证表达能力和泛化能力，以更好地利用训练数据的几何和纹理信息。

GeoTexAvatar Representation

作者提出的人体表达基于 SCANimate 中的 pose-conditioned implicit function ，其中是占据值，是标准姿态空间 (canonical space) 的 3D 点，是 SMPL 的姿态参数。姿态相关的人体表面由隐式函数的零等值面决定，但该表达将姿态相关的变形和姿态无关的表面细节都依赖输入姿态，因而在训练集中未出现的姿态生成的动画结果会倾向缺少姿态无关的细节信息。为此作者提出了一种分离的表达：

其中表示姿态相关的变形场，是姿态无关的占据值。

先前方法都忽略了扫描数据中的纹理信息，作者发现纹理对于约束姿态相关的服装变形 (如服装的切向运动) 非常重要，为此作者基于 neural radiance field 定义了纹理模型

相比当前 state-of-the-art 方法，GeoTexAvatar 的优点在于

分离的表达能够在动画时保留更多姿态无关的模型细节；
几何和纹理的联合监督能够得到更加合理的姿态相关的变形；
纹理模型能够通过微调来用于高质量渲染。

GeoTexAvatar Representation GeoTexAvatar Training

GeoTexAvatar 网络的训练损失包含三个部分：

Geometry Loss：几何网络预测的占据值与 GT 之间的交叉熵损失；
Texture Loss：纹理网络渲染得到的颜色与模型渲染的颜色之间的 L2 损失；
Regularization Loss：变形场的正则化损失，惩罚大的变形。

Avatar-conditioned Volumetric Capture

有了 avatar 模型，接下来便要基于此模型进行人体捕捉，该问题最大的困难在于 avatar 表达与输入图片之间的差异，即图片没有提供任何 3D 信息可以关联到 avatar 几何。如下图所示，为了克服这个问题，作者借用法向图作为中间表达来缩小输入图片和 avatar 模型之间的 gap。

给定一张 RGB 图片，首先计算标准姿态空间下 avatar 的法向图和当前图片观测到的法向图，

标准姿态空间下的 avatar 法向图：估计当前图片的 SMPL 参数，然后送入 GeoTexAvatar 网络得到标准姿态空间下的 avatar，再渲染得到正面和背面的法向图和；
当前图片对应的法向图变形到标准姿态空间的结果：将彩色图送入 PIFuHD 的法向图预测网络，预测正面、背面的法向图，然后把标准姿态空间下的 avatar 变形到当前姿态，投影到图像空间，从正面、背面法向图中获取每个顶点的法向。再使用该顶点法向渲染得到标准姿态空间下正面和背面的法向图和。

Canonical Normal Fusion

为了将图像上观测到的法向细节融合到上，在保留原始正确的低频朝向 (如胳膊旋转) 的基础上，增加的高频细节，作者对法向图空间进行格子划分，每个格点定义一个 3D 旋转，极小化如下能量来优化：

其中是数据项，衡量了 avatar 法向经过变换后与 image 法向之间的差异。是光滑项，衡量了相邻格子的旋转矩阵之间的一致性。作者先优化旋转矩阵，再固定旋转矩阵优化，得到优化后的法向图。

Volumetric Capture Results Model Reconstruction

Geometric Reconstruction：为了从优化的法向图和重建人体几何，作者在 THUman 2.0 数据集上训练了一个类似 PIFu 的重建网络，其中是标准姿态空间的一个 3D 点，是从图像特征采样的函数，是正交投影。通过 Marching Cubes 算法提取标准姿态空间下的人体网格，再通过 LBS 变形到当前姿态。

Texture Generation：基于 GeoTexAvatar 表达，可以进一步计算得到重建的人体模型的纹理。给定标准姿态下人体网格的顶点和法向，使用 NeRF 的体渲染计算射线对应的颜色便可得到顶点的颜色。

Results

下图展示了文章方法人体捕捉的结果，第一行是输入的 RGB 图片，下面两行分别是重建的人体几何和纹理。

Results

下图展示了文章方法和 POSEFusion、PIFuHD 和 NormalGAN 的结果对比，文章方法能够重建更多的细节信息，具有更低的重建误差。

Comparisons

下图展示了文章方法和 SCANimate、SCALE 和 POP 的结果对比，同样本文方法能够重建更多的衣服褶皱等细节信息。

Comparisons 参考

1、AvatarCap: Animatable Avatar Conditioned Monocular Human Volumetric Capture. Zhe Li, Zerong Zheng, Hongwen Zhang, Chaonan Ji, Yebin Liu. ECCV, 2022.

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿，加微信：dddvision

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

ECCV 2022 | AvatarCap：清华最新开源的单目人体捕捉方案

[ 申请 ]友情链接：