8 天前

XFormer:快速且精确的单目3D人体捕获

Lihui Qian, Xintong Han, Faqiang Wang, Hongyu Liu, Haoye Dong, Zhiwen Li, Huawei Wei, Zhe Lin, Cheng-Bin Jin
XFormer:快速且精确的单目3D人体捕获
摘要

我们提出XFormer,一种新型的人体网格与动作捕捉方法,仅需单目图像作为输入,即可在消费级CPU上实现实时性能。所提出的网络架构包含两个分支:关键点分支,用于根据2D关键点估计3D人体网格顶点;图像分支,直接从RGB图像特征中进行预测。本方法的核心是一个跨模态Transformer模块,通过建模2D关键点坐标与图像空间特征之间的注意力关系,实现两个分支间的信息交互。该架构设计巧妙,使得我们能够基于多种类型的数据集进行训练,包括带有2D/3D标注的图像、带有3D伪标签的图像,以及不附带图像的动捕数据集,从而显著提升了系统的精度与泛化能力。基于轻量级主干网络(MobileNetV3),该方法运行速度极快(单核CPU下超过30fps),同时保持了具有竞争力的精度。此外,当采用HRNet作为主干网络时,XFormer在Human3.6M和3DPW数据集上均达到了当前最优性能。

XFormer:快速且精确的单目3D人体捕获 | 最新论文 | HyperAI超神经