Command Palette
Search for a command to run...
DPIT:用于人体姿态估计的双流水线融合Transformer
DPIT:用于人体姿态估计的双流水线融合Transformer
Shuaitao Zhao Kun Liu Yuhang Huang Qian Bao Dan Zeng Wu Liu
摘要
人体姿态估计旨在识别不同场景中所有人物的关键点。尽管现有方法取得了令人瞩目的成果,但仍面临诸多挑战。现有的自上而下(top-down)方法通常逐个处理单个人体,忽略了人与人之间以及人与场景之间的相互作用,因此在发生严重遮挡时,人体检测性能显著下降。另一方面,现有的自下而上(bottom-up)方法能够同时处理图像中的所有人,从而捕捉图像的全局视觉信息,但由于人体尺度变化较大,其精度通常低于自上而下的方法。为解决上述问题,本文提出一种新型的双流融合Transformer架构——双流集成Transformer(Dual-Pipeline Integrated Transformer, DPIT),通过融合自上而下与自下而上的双路径结构,充分挖掘不同感受野的视觉线索,并实现两者之间的互补优势。具体而言,DPIT包含两个并行分支:自下而上分支对整幅图像进行处理,以提取全局视觉信息;自上而下分支则从单个人体的边界框中提取局部视觉特征表示。随后,两个分支提取的特征表示被送入Transformer编码器,实现全局与局部知识的交互式融合。此外,本文设计了关键点查询机制,以同时探索全场景与单人姿态的视觉线索,从而实现双路径之间的相互补充。据我们所知,这是首个将自下而上与自上而下双路径结构与Transformer架构相结合用于人体姿态估计的工作。在COCO和MPII两个标准数据集上的大量实验结果表明,所提出的DPIT方法在性能上达到了与当前最先进方法相当的水平,验证了其有效性与优越性。