点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
本文分享一篇 52CV 粉丝的论文『3D Human Pose Estimation with Spatial and Temporal Transformers』。文中提出首个纯粹基于Transformer 的架构,在不涉及卷积的情况下在视频中实现3D人体姿态估计。算法在Human3.6M和MPI-INF-3DHP数据集上均达到SOTA performance,并在 in the wild 视频中有着不错的表现。
详情介绍如下:
-
论文作者:Ce Zheng, Sijie Zhu, Matias Mendieta, Taojiannan Yang, Chen Chen, Zhengming Ding
-
作者单位:北卡夏洛特分校;杜兰大学
-
论文链接:https://arxiv.org/abs/2103.10455
-
项目地址:https://github.com/zczcwh/PoseFormer
01
简介
人体姿态估计在近年来受到广泛的关注,并已被运用于人机交互,运动分析,虚拟现实等任务中。3D人体姿态估计的方法主要分为两类:直接估计(Direct estimation)和 2D 到 3D (2D to 3D lifting) 。
其中 2D 到 3D 的方法先利用 SOTA 2D 人体姿态估计算法得到 2D 关键点,再通过神经网络估计 3D 人体姿态。基于其优异的表现,2D 到 3D 已成为主流方法。
与从单张图片中估计 3D 人体姿态相比,从视频中估计 3D 人体姿态能利用时序信息进行更准确的预测。然而主流方法大多利用时序卷积(Temporal convolutional network)来学习视频的时序信息,其表现往往受制于感受野的大小。
得益于 self-attention 机制,Transformer 能捕捉长时序输入的内在关联,且不受制于其距离。受此启发,我们设计了一种不含卷积的时空 Transformer 的网络结构。
针对多帧输入,其中 spatial transformer 能提取每帧 2D 骨架中的人体关节联系,temporal transformer 能捕捉多帧信息的时间相关性,最后输出中间帧的准确3D人体姿态。
02
方法
Spatial transformer module
受视觉Transformer(ViT)的启发,对于每帧图片已得到的2D骨架作为输入,spatial transformer把该帧的每个关键点当做一个patch,通过patch embedding和spatial positional embedding得到的高维特征,送入spatial transformer encoder来提取关键点之间的人体关节联系。
Temporal transformer module
类似的,每一帧图片经过spatial transformer module 提取高维特征后,将被看做temporal transformer的一个Patch。经过temporal positional embedding加入时序信息后,temporal transformer encoder会捕捉多帧输入的时间相关性,最终得到包含整个输入的时空信息的特征。
Regression Head
为了输出中间帧的3D人体姿态,本文使用一个加权平均的操作得到属于中间帧的特征,然后通过MLP和LayerNorm 得到最终的输出。
03
试验结果
本文在 Human3.6M 和 MPI-INF-3DHP 两个流行数据集上进行了试验,均得到最优结果。
同时比较了在 Human3.6M 数据集下 3D 重建的视觉效果
最后本文展示了在任意视频下的3D人体姿态估计的效果
可以看到在户外,快速移动,高遮挡的情况下均能达到不错的效果。
视频解析:
更多的细节分析请见原文,代码已经开源,敬请关注加星,谢谢大家。
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~