17 天前

CrossFormer:用于3D人体姿态估计的跨时空Transformer

Mohammed Hassanin, Abdelwahed Khamiss, Mohammed Bennamoun, Farid Boussaid, Ibrahim Radwan
CrossFormer:用于3D人体姿态估计的跨时空Transformer
摘要

三维人体姿态估计可通过建模身体各部位之间的几何依赖关系并施加运动学约束来实现。近年来,Transformer架构被广泛应用于捕捉关节在空间和时间维度上的长程依赖关系。尽管其在建模长程依赖方面表现出色,但已有研究指出,视觉Transformer在局部特征建模方面仍存在改进空间。为此,本文提出一种新型姿态估计Transformer,通过引入丰富的关节表征,有效捕捉帧间细微变化(即跨特征表示)。具体而言,该模型设计了两种新颖的交互模块——跨关节交互模块(Cross-Joint Interaction)与跨帧交互模块(Cross-Frame Interaction),显式建模身体关节之间的局部与全局依赖关系。所提出的架构在两个主流的三维人体姿态估计数据集(Human3.6M 和 MPI-INF-3DHP)上均取得了当前最优性能。尤其在使用检测到的2D姿态和真实标注(ground-truth)设置下,相较于最接近的对比方法PoseFormer,本文提出的CrossFormer方法分别提升了0.9%和0.3%的性能。

CrossFormer:用于3D人体姿态估计的跨时空Transformer | 最新论文 | HyperAI超神经