6 个月前

摘要

准确估计视频序列中人体的三维姿态，不仅需要高精度，还需具备结构合理的网络架构。随着Transformer架构的兴起，本文提出了一种新型的精炼时序金字塔压缩与放大（Refined Temporal Pyramidal Compression-and-Amplification, RTPCA）Transformer。RTPCA充分利用时序维度，在块内引入时序金字塔压缩与放大（Temporal Pyramidal Compression-and-Amplification, TPCA）结构，以增强时序建模能力；同时通过跨层精炼（Cross-Layer Refinement, XLR）模块，优化块间的特征交互，提升语义表达能力。具体而言，TPCA模块采用时序金字塔范式，强化了查询（query）、键（key）与值（value）的表征能力，并能从运动序列中无缝提取空间语义信息。我们将多个TPCA模块通过XLR模块进行连接，使查询、键与值在不同层级间持续交互，从而促进更丰富的语义建模。该设计有效融合了早期信息与当前特征流，解决了现有基于Transformer的方法在细节表达与稳定性方面的常见缺陷。在Human3.6M、HumanEva-I和MPI-INF-3DHP等多个主流三维人体姿态基准数据集上，RTPCA均取得了当前最优（state-of-the-art）的性能表现，且计算开销极低。相关源代码已开源，访问地址为：https://github.com/hbing-l/RTPCA。

源 PDF