HyperAIHyperAI

Command Palette

Search for a command to run...

DPIT:用于人体姿态估计的双流水线融合Transformer

Shuaitao Zhao Kun Liu Yuhang Huang Qian Bao Dan Zeng Wu Liu

摘要

人体姿态估计旨在识别不同场景中所有人物的关键点。尽管现有方法取得了令人瞩目的成果,但仍面临诸多挑战。现有的自上而下(top-down)方法通常逐个处理单个人体,忽略了人与人之间以及人与场景之间的相互作用,因此在发生严重遮挡时,人体检测性能显著下降。另一方面,现有的自下而上(bottom-up)方法能够同时处理图像中的所有人,从而捕捉图像的全局视觉信息,但由于人体尺度变化较大,其精度通常低于自上而下的方法。为解决上述问题,本文提出一种新型的双流融合Transformer架构——双流集成Transformer(Dual-Pipeline Integrated Transformer, DPIT),通过融合自上而下与自下而上的双路径结构,充分挖掘不同感受野的视觉线索,并实现两者之间的互补优势。具体而言,DPIT包含两个并行分支:自下而上分支对整幅图像进行处理,以提取全局视觉信息;自上而下分支则从单个人体的边界框中提取局部视觉特征表示。随后,两个分支提取的特征表示被送入Transformer编码器,实现全局与局部知识的交互式融合。此外,本文设计了关键点查询机制,以同时探索全场景与单人姿态的视觉线索,从而实现双路径之间的相互补充。据我们所知,这是首个将自下而上与自上而下双路径结构与Transformer架构相结合用于人体姿态估计的工作。在COCO和MPII两个标准数据集上的大量实验结果表明,所提出的DPIT方法在性能上达到了与当前最先进方法相当的水平,验证了其有效性与优越性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供