13 天前

用于3D人体姿态估计的精炼时空金字塔压缩与放大Transformer

Hanbing Liu, Wangmeng Xiang, Jun-Yan He, Zhi-Qi Cheng, Bin Luo, Yifeng Geng, Xuansong Xie
用于3D人体姿态估计的精炼时空金字塔压缩与放大Transformer
摘要

准确估计视频序列中人体的三维姿态,不仅需要高精度,还需具备结构合理的网络架构。随着Transformer架构的兴起,本文提出了一种新型的精炼时序金字塔压缩与放大(Refined Temporal Pyramidal Compression-and-Amplification, RTPCA)Transformer。RTPCA充分利用时序维度,在块内引入时序金字塔压缩与放大(Temporal Pyramidal Compression-and-Amplification, TPCA)结构,以增强时序建模能力;同时通过跨层精炼(Cross-Layer Refinement, XLR)模块,优化块间的特征交互,提升语义表达能力。具体而言,TPCA模块采用时序金字塔范式,强化了查询(query)、键(key)与值(value)的表征能力,并能从运动序列中无缝提取空间语义信息。我们将多个TPCA模块通过XLR模块进行连接,使查询、键与值在不同层级间持续交互,从而促进更丰富的语义建模。该设计有效融合了早期信息与当前特征流,解决了现有基于Transformer的方法在细节表达与稳定性方面的常见缺陷。在Human3.6M、HumanEva-I和MPI-INF-3DHP等多个主流三维人体姿态基准数据集上,RTPCA均取得了当前最优(state-of-the-art)的性能表现,且计算开销极低。相关源代码已开源,访问地址为:https://github.com/hbing-l/RTPCA。

用于3D人体姿态估计的精炼时空金字塔压缩与放大Transformer | 最新论文 | HyperAI超神经