17 天前

TransPose:基于Transformer的关键点定位

Sen Yang, Zhibin Quan, Mu Nie, Wankou Yang
TransPose:基于Transformer的关键点定位
摘要

尽管基于卷积神经网络(CNN)的模型在人体姿态估计任务上取得了显著进展,但其在定位关键点时所捕捉的空间依赖关系仍不明确。本文提出了一种名为 \textbf{TransPose} 的新模型,首次将 Transformer 架构引入人体姿态估计任务。Transformer 中内置的注意力机制使模型能够高效捕捉长距离依赖关系,同时还能揭示预测关键点所依赖的具体空间关系。为生成关键点热图,模型最后一层注意力机制充当聚合器,整合来自图像的多源线索,并定位热图中的峰值位置。这种基于 Transformer 的热图定位方式遵循了激活最大化(Activation Maximization)的基本原理~\cite{erhan2009visualizing}。所揭示的依赖关系具有高度图像特异性与细粒度特征,能够为模型处理特殊情形(如遮挡)提供可解释性证据。实验结果表明,TransPose 在 COCO 验证集和测试集(test-dev)上分别取得了 75.8 AP 和 75.0 AP 的性能表现,同时在模型轻量化和推理速度方面优于主流 CNN 架构。此外,TransPose 在 MPII 基准测试上也展现出优异的迁移能力,仅需少量微调即可在测试集上达到领先性能。代码与预训练模型已公开发布\footnote{\url{https://github.com/yangsenius/TransPose}}。