
摘要
人体姿态通常以关节坐标向量或其热图嵌入(heatmap embeddings)的形式进行表示。尽管这种表示方式便于数据处理,但由于缺乏对身体关节之间依赖关系的建模,往往会产生不切实际的姿态估计结果。本文提出一种结构化表示方法,命名为“姿态作为组合令牌”(Pose as Compositional Tokens, PCT),用于探索关节间的依赖关系。该方法将一个姿态表示为 M 个离散的令牌(tokens),每个令牌表征一个包含多个相互依赖关节的子结构。这种组合式设计使得模型能够在较低计算成本下实现较小的重构误差。随后,我们将姿态估计问题转化为分类任务:具体而言,训练一个分类器,从图像中预测 M 个令牌的类别。利用预先训练好的解码网络,可直接从令牌恢复出完整姿态,无需后续后处理。实验结果表明,该方法在一般场景下能够达到优于或与现有方法相当的姿态估计性能,且在存在遮挡的情况下仍能保持良好表现——而遮挡在实际应用中极为常见。相关代码与模型已公开发布于 https://github.com/Gengzigang/PCT。