17 天前

MHFormer:用于3D人体姿态估计的多假设Transformer

Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, Luc Van Gool
MHFormer:用于3D人体姿态估计的多假设Transformer
摘要

从单目视频中估计三维人体姿态是一项极具挑战性的任务,主要由于深度模糊性和自遮挡问题。现有大多数方法通过利用空间与时间上的关联关系来尝试解决上述问题。然而,这些方法忽视了一个关键事实:该任务本质上是一个逆问题,存在多个可行的解(即多个假设)。为缓解这一局限,我们提出了一种多假设Transformer(Multi-Hypothesis Transformer, MHFormer),用于学习多个合理姿态假设的时空表示。为了有效建模多假设之间的依赖关系,并在不同假设特征之间建立强关联,我们将整个任务分解为三个阶段:(i)生成多个初始假设表示;(ii)建模假设内部的交互关系,将多个假设融合为一个收敛的统一表示,随后将其重新划分成若干个发散的假设;(iii)学习假设间的跨交互关系,聚合多假设特征以合成最终的三维姿态。通过上述过程,最终的表示得到显著增强,合成的姿态也更加精确。大量实验表明,MHFormer在两个具有挑战性的数据集——Human3.6M 和 MPI-INF-3DHP 上均取得了当前最优的性能。在不依赖任何额外技巧(bells and whistles)的情况下,其在 Human3.6M 上的表现较此前最优结果大幅提升超过3%。代码与模型已开源,访问地址为:\url{https://github.com/Vegetebird/MHFormer}。