11 天前

VTP:用于多视角多人3D姿态估计的体素Transformer

Yuxing Chen, Renshu Gu, Ouhan Huang, Gangyong Jia
VTP:用于多视角多人3D姿态估计的体素Transformer
摘要

本文提出了一种名为体素化Transformer姿态估计器(Volumetric Transformer Pose estimator, VTP)的新型框架,这是首个用于多视角多人3D人体姿态估计的3D体素化Transformer架构。VTP通过聚合所有摄像机视角中2D关键点的特征,以端到端的方式直接学习3D体素空间中的空间关系。经过聚合的3D特征首先经过3D卷积处理,随后被展平为序列嵌入,并输入至Transformer模块。为进一步提升性能,本文设计了残差结构。此外,引入稀疏Sinkhorn注意力机制,在显著降低体素表示所面临的内存开销这一主要瓶颈的同时,仍保持了优异的性能表现。Transformer的输出通过残差连接的方式与3D卷积特征再次融合。所提出的VTP框架将Transformer的高表达能力与体素化表示的优势相结合,可作为传统卷积主干网络的有力替代方案。在Shelf、Campus和CMU Panoptic等多个基准数据集上的实验结果表明,VTP在平均关节位置误差(MPJPE)和正确估计部位占比(PCP)两项指标上均取得了令人瞩目的性能表现。相关代码将随后公开。

VTP:用于多视角多人3D姿态估计的体素Transformer | 最新论文 | HyperAI超神经