
摘要
在本文中,我们从多个方面展示了普通视觉变换器在人体姿态估计中的出乎意料的良好特性,即模型结构的简洁性、模型规模的可扩展性、训练范式的灵活性以及模型之间的知识迁移能力,通过一个简单的基线模型——ViTPose 来说明。具体而言,ViTPose 使用普通的非层次化视觉变换器作为编码器来编码特征,并使用轻量级解码器以自上而下或自下而上的方式解码身体关键点。通过利用视觉变换器的可扩展模型容量和高并行性,ViTPose 可以从约 2000 万参数扩展到 10 亿参数,为吞吐量和性能设定了新的帕累托前沿(Pareto front)。此外,ViTPose 在注意力类型、输入分辨率以及预训练和微调策略方面具有很高的灵活性。基于这种灵活性,我们提出了一种新型的 ViTPose+ 模型,通过知识分解方法处理不同类型的人体姿态估计任务中的异构身体关键点类别,即在变换器中采用任务无关和任务特定的前馈网络。我们还通过实验证明了大型 ViTPose 模型的知识可以通过简单的知识令牌轻松迁移到小型模型中。实验结果表明,我们的 ViTPose 模型在具有挑战性的 MS COCO 人体关键点检测基准测试中,在自上而下和自下而上的设置下均优于代表性方法。此外,我们的 ViTPose+ 模型在一系列人体姿态估计任务中同时达到了最先进的性能,包括 MS COCO、AI Challenger、OCHuman 和 MPII 的人体关键点检测、COCO-Wholebody 的全身关键点检测以及 AP-10K 和 APT-36K 的动物关键点检测,且未牺牲推理速度。