15 天前
Poseur:基于Transformer的直接人体姿态回归
Weian Mao, Yongtao Ge, Chunhua Shen, Zhi Tian, Xinlong Wang, Zhibin Wang, Anton van den Hengel

摘要
我们提出一种直接的、基于回归的单张图像2D人体姿态估计方法。将该问题建模为序列预测任务,并采用Transformer网络进行求解。该网络直接学习从图像到关键点坐标的回归映射,无需依赖热图等中间表示形式,从而避免了基于热图方法所带来的大量复杂性。为解决以往回归方法中存在的特征错位问题,我们提出一种自适应注意力机制,能够动态聚焦于与目标关键点最相关的特征,显著提升了估计精度。尤为重要的是,我们的框架具有端到端可微的特性,能够自然地学习关键点之间的依赖关系。在MS-COCO和MPII这两个主流人体姿态估计数据集上的实验表明,该方法在基于回归的姿态估计领域显著超越了现有最先进水平。更值得注意的是,本方法是首个在性能上可与最优的基于热图的姿态估计方法相媲美的回归式方法。