HyperAIHyperAI

Command Palette

Search for a command to run...

用于3D人体姿态估计的精炼时空金字塔压缩与放大Transformer

Hanbing Liu Wangmeng Xiang Jun-Yan He Zhi-Qi Cheng Bin Luo Yifeng Geng Xuansong Xie

摘要

准确估计视频序列中人体的三维姿态,不仅需要高精度,还需具备结构合理的网络架构。随着Transformer架构的兴起,本文提出了一种新型的精炼时序金字塔压缩与放大(Refined Temporal Pyramidal Compression-and-Amplification, RTPCA)Transformer。RTPCA充分利用时序维度,在块内引入时序金字塔压缩与放大(Temporal Pyramidal Compression-and-Amplification, TPCA)结构,以增强时序建模能力;同时通过跨层精炼(Cross-Layer Refinement, XLR)模块,优化块间的特征交互,提升语义表达能力。具体而言,TPCA模块采用时序金字塔范式,强化了查询(query)、键(key)与值(value)的表征能力,并能从运动序列中无缝提取空间语义信息。我们将多个TPCA模块通过XLR模块进行连接,使查询、键与值在不同层级间持续交互,从而促进更丰富的语义建模。该设计有效融合了早期信息与当前特征流,解决了现有基于Transformer的方法在细节表达与稳定性方面的常见缺陷。在Human3.6M、HumanEva-I和MPI-INF-3DHP等多个主流三维人体姿态基准数据集上,RTPCA均取得了当前最优(state-of-the-art)的性能表现,且计算开销极低。相关源代码已开源,访问地址为:https://github.com/hbing-l/RTPCA


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于3D人体姿态估计的精炼时空金字塔压缩与放大Transformer | 论文 | HyperAI超神经