6 个月前

摘要

尽管基于卷积神经网络（CNN）的模型在人体姿态估计任务上取得了显著进展，但其在定位关键点时所捕捉的空间依赖关系仍不明确。本文提出了一种名为 \textbf{TransPose} 的新模型，首次将 Transformer 架构引入人体姿态估计任务。Transformer 中内置的注意力机制使模型能够高效捕捉长距离依赖关系，同时还能揭示预测关键点所依赖的具体空间关系。为生成关键点热图，模型最后一层注意力机制充当聚合器，整合来自图像的多源线索，并定位热图中的峰值位置。这种基于 Transformer 的热图定位方式遵循了激活最大化（Activation Maximization）的基本原理~\cite{erhan2009visualizing}。所揭示的依赖关系具有高度图像特异性与细粒度特征，能够为模型处理特殊情形（如遮挡）提供可解释性证据。实验结果表明，TransPose 在 COCO 验证集和测试集（test-dev）上分别取得了 75.8 AP 和 75.0 AP 的性能表现，同时在模型轻量化和推理速度方面优于主流 CNN 架构。此外，TransPose 在 MPII 基准测试上也展现出优异的迁移能力，仅需少量微调即可在测试集上达到领先性能。代码与预训练模型已公开发布\footnote{\url{https://github.com/yangsenius/TransPose}}。

源 PDF