您当前的位置: 首页 >  3d

暂无认证

  • 2浏览

    0关注

    101061博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

3D人体数据集不够用?这不又多了一个,还有基于Transformer的人体捕捉新方案哦...

发布时间:2021-01-11 07:00:00 ,浏览量:2

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

基于单目相机的3D人体运动捕捉是近两年的研究热点,但拥有3D人体标注的自然场景下的数据集仍相对缺乏,且针对视频输入的方法较少,本文构造了一个大型的数据集,并提出了一个基于 Transformer 的时序模型。

Title

本文作者来自加州大学伯克利分校,作者提出了一种基于多帧优化的方法,将人体模型拟合到影视片段中出现的人物,构造了一个包含 35 万帧 数据的大型 3D 人体数据集 Multi-Shot-AVA (MS-AVA),基于此数据集,作者分别训练了一个单帧和连续帧的 3D 人体形状和姿态估计网络,均取得了非常不错的结果。

项目主页:https://geopavlakos.github.io/multishot

Video

Method

文章方法的流程如下图所示,首先通过离线的多帧优化 (Multi-shot Optimization, 译作多镜头优化更合适?) 方法,基于电影片段构造一个大型的 3D 人体数据集,然后基于此数据集,针对单帧和连续帧情况分别训练了一个人体姿态和形状估计网络 HMR (Human Mesh Recovery) 和 Transformer HMMR (Human Mesh and Motion Recovery)。

Overview

Multi-shot Optimization Preprocessing Steps

给定一段视频,首先使用 OpenPose 或者 AlphaPose 检测其中的人体 2D 关键点,虽然这些方法能够得到较为可靠的人体追踪结果,但在镜头切换时可能会产生追踪错误 (视频中不止一个人物时),为了提高追踪的时长,作者首先使用人体检测 (Body Detection) 方法检测每一帧的人体框,然后使用人体重识别 (Person Reidentification) 将每一帧检测到的人体建立联系,得到每个人体的追踪结果。

Multi-shot Optimization

考虑到镜头切换时,人体的动作变化可能很小。作者将姿态参数分解为全局旋转  和人体姿态参数 ,将相机的运动和人体的运动分离开,这样人体在其参考坐标系下的关节点位置为  ,便可以针对参考坐标系人体的关节位置和参数施加连续性约束:

Smoothness on Canonical Frame

这一想法其实就是将相机坐标系和世界坐标系分开考虑,镜头切换时相机在运动,但人在世界坐标系中是连续变化的,因而可以对世界坐标系中的人体施加连续性约束。而之前的方法一般都直接优化相机坐标系下的人体参数,这样镜头切换时,人在相机坐标系下的运动是不连续的,无法施加次连续性约束。

整个优化的目标函数是

其中  和  分别是和 SMPLify 中类似的每一帧的数据项 (关节点的重投影误差) 和先验项。为了能够更快地收敛到更好的结果,作者使用 SPIN 预测的结果作为优化的初始值。

Multi-Shot AVA Dtaset

作者使用 AVA 数据集,AVA 数据集有 300 个电影片段,包含 1FPS 的人体框和基本动作类型标注,作者也以 1FPS 的速率进行采样处理,通过预处理和优化得到最终的 3D 人体数据集 Multi-Shot-AVA (MS-AVA)。与其他数据集最大的不同之处在于,MS-AVA 数据集还包含镜头切换和人体不连续的情况,如下图所示。

Video in MS-AVA

下面表格展示了 MS-AVA 数据集与当前使用较为广泛的数据集之间的对比,MS-AVA 数据集在视频长度和连续片段的个数都显著高于其他现有数据集。

Datasets Comparison

Human Mesh Recovery

基于 MS-AVA 数据集,作者针对图片和视频分别训练了一个 3D 人体形状和姿态估计网络,验证了 MS-AVA 数据集的有效性。

Single-frame Model

作者使用 HMR (Human Mesh Recovery) 来进行基于单帧的人体形状和姿态估计,通过卷积神经网络从输入图片  预测人体模型参数  和相机参数 ,损失函数包含关节点的投影误差和参数的偏差:

实验结果表明 MS-AVA 数据集的多样性和极具挑战性的情况 (人体截断) 对于模型的鲁棒性提升很大。

Temporal Model

基于单帧的模型,作者继续训练了一个时序编码函数 ,以前的工作使用卷积、循环或者混合编码器来表达这个函数,但这些文章使用的时序训练数据都来自经过整理的连续追踪的人体视频组成,相比之下,MS-AVA 数据集具有更一般的情况,包括镜头切换或某些帧没有目标人体 (由于遮挡、跟踪失败或重识别失败),而卷积或循环神经网络不适合这类情形。

为了突破这些限制,作者提出了 t-HMMR,一个基于 Transformer 架构的时序模型,Transformer 模型在自然语言处理中有着广泛的应用,非常适合处理时序数据,在计算机视觉领域也有越来越多的相关工作,其注意力机制能够让网络显式地从输入序列中选择需要参与计算的元素,这对于 MS-AVA 数据集人体序列不连续的特性非常方便。

t-HMMR 的网络架构如下图所示,Transformer 编码器将通过 HMR 得到的图片帧序列  的嵌入特征  作为输入,每一帧带有一个标量值 ,表示目标人体对象是否在第  帧中出现 ( 为出现, 为不出现)。同时一个固定的位置编码 (Positional Encoding)  将每一帧的时间信息  加入到输入特征中,更新后的特征随后传入到 Transformer Encoder 层,其结构跟原始 Transformer 模型的网络架构一致,包含一个自注意力机制 (self-attention mechanism) 和一个浅层前馈网络。 值用于确保无效的输入帧不会对自注意力计算产生影响,Transformer Encoder 层输出残差值  并通过残差连接和特征  相加在一起。整个网络块的输出结果是视频特征 。该特征最后再通过一个回归器预测人体的参数。

t-HMMR Architecture

训练 Transformer Encoder 时,作者固定图片编码器  的权重,只更新时序编码器  和参数回归器 。损失函数除了包含单帧模型使用的  和   ,还有多帧优化时使用的光滑项   和  。

Experiments

Implementation

作者使用 SPIN 文章中使用的标准数据集 (Human3.6M, COCO, MPII) 和对应的 SMPL 参数重新训练了 HMR 模型作为基准,并使用该基准模型来初始化多帧优化和消融实验。通过离线的方式构造好 MS-AVA 数据集后,再加入该数据集以同样的策略继续训练得到最终的 HMR 模型,对于 t-HMMR 模型,为了加快训练速度,作者固定 HMR 的图像编码器,仅训练时序编码器和参数回归器。

Evaluation

下图展示了使用文章的单帧模型与其他模型的对比结果,对于半身人体情况,文章模型的效果有极大的改善。

Result Comparison

下面表格是文章的单帧模型在 3DPW 测试集上的关节点误差,加入了 MS-AVA 数据集后,关节点误差能够下降 1.4mm。

Results on 3DPW

下图展示了使用不同的时序编码器 ( HMMR 使用的卷积编码器,VIBE 使用的循环神经网络编码器和本文使用的 Transformer 编码器) 训练的模型在 3DPW 验证集上的误差。为了更公平的比较,作者使用 VIBE 的开源代码,使用同样的训练数据和训练流程,仅改变时序编码器部分。如下图所示,虽然在迭代的过程中三者都能取得差不多同样的最佳结果,但基于卷积和循环神经网络的编码器在几次训练迭代后会趋于发散,而 Transformer 编码器则相对比较稳定。

Comparison of Temporal Encoders

下图展示了 t-HMMR 模型的优势所在,相比于单帧模型,虽然前后两帧镜头产生切换,但 t-HMMR 模型预测的结果仍然较为一致,表现更加稳定。

Effect of t-HMMR mode

参考

  1. Human Mesh Recovery from Multiple Shots. Georgios Pavlakos, Jitendra Malik, Angjoo Kanazawa. ArXiv, 2020.

  2. End-to-end Recovery of Human Shape and Pose. Angjoo Kanazawa, Michael J Black, David W. Jacobs, Jitendra Malik. CVPR, 2018.

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

关注
打赏
1655516835
查看更多评论
立即登录/注册

微信扫码登录

0.0835s