2 个月前
基于全局到局部建模的视频三维人体姿态与形状估计
Shen, Xiaolong ; Yang, Zongxin ; Wang, Xiaohan ; Ma, Jianxin ; Zhou, Chang ; Yang, Yi

摘要
基于视频的3D人体姿态和形状估计通常通过帧内精度和帧间平滑度来评估。尽管这两个指标负责不同时间范围的一致性,现有的最先进方法却将它们视为统一的问题,并使用单调的建模结构(例如,递归神经网络RNN或基于注意力的模块)来设计其网络。然而,仅使用一种建模结构难以平衡短期和长期时间相关性的学习,可能会导致网络偏向其中一种,从而产生全局位置偏移、时间不一致性和局部细节不足等不良预测。为了解决这些问题,我们提出了一种端到端框架——从全局到局部的变换器(Global-to-Local Transformer, GLoT),在该框架中结构性地解耦长期和短期相关性的建模。首先,引入了一个全局变换器,并采用了随机遮蔽姿态和形状估计策略(Masked Pose and Shape Estimation)来进行长期建模。该策略通过随机遮蔽若干帧的特征,促使全局变换器学习更多的帧间相关性。其次,局部变换器负责提取人体网格上的局部细节,并通过交叉注意力机制与全局变换器进行交互。此外,还引入了分层空间相关性回归器(Hierarchical Spatial Correlation Regressor),通过解耦的全局-局部表示和隐式运动学约束来细化帧内估计。我们的GLoT在流行的基准数据集上以最少的模型参数超越了先前的最先进方法,这些数据集包括3DPW、MPI-INF-3DHP和Human3.6M。代码可在https://github.com/sxl142/GLoT获取。