8 个月前

摘要

人体姿态估计旨在识别不同场景中所有人物的关键点。尽管现有方法取得了令人瞩目的成果，但仍面临诸多挑战。现有的自上而下（top-down）方法通常逐个处理单个人体，忽略了人与人之间以及人与场景之间的相互作用，因此在发生严重遮挡时，人体检测性能显著下降。另一方面，现有的自下而上（bottom-up）方法能够同时处理图像中的所有人，从而捕捉图像的全局视觉信息，但由于人体尺度变化较大，其精度通常低于自上而下的方法。为解决上述问题，本文提出一种新型的双流融合Transformer架构——双流集成Transformer（Dual-Pipeline Integrated Transformer, DPIT），通过融合自上而下与自下而上的双路径结构，充分挖掘不同感受野的视觉线索，并实现两者之间的互补优势。具体而言，DPIT包含两个并行分支：自下而上分支对整幅图像进行处理，以提取全局视觉信息；自上而下分支则从单个人体的边界框中提取局部视觉特征表示。随后，两个分支提取的特征表示被送入Transformer编码器，实现全局与局部知识的交互式融合。此外，本文设计了关键点查询机制，以同时探索全场景与单人姿态的视觉线索，从而实现双路径之间的相互补充。据我们所知，这是首个将自下而上与自上而下双路径结构与Transformer架构相结合用于人体姿态估计的工作。在COCO和MPII两个标准数据集上的大量实验结果表明，所提出的DPIT方法在性能上达到了与当前最先进方法相当的水平，验证了其有效性与优越性。

源 PDF