
摘要
我们提出 CenterGroup,这是一种基于注意力机制的框架,旨在从图像中一组与身份无关的关键点及人体中心预测结果中估计人体姿态。该方法利用 Transformer 为所有检测到的关键点和人体中心生成上下文感知的嵌入表示,随后通过多头注意力机制直接将各关节关联至对应的人体中心。与大多数自底向上方法在推理阶段依赖不可学习的聚类算法不同,CenterGroup 采用完全可微的注意力机制,并与关键点检测器端到端联合训练。因此,我们的方法在性能上达到当前最优水平,同时推理速度相比现有自底向上方法最快提升达 2.5 倍。代码已开源,地址为:https://github.com/dvl-tum/center-group。