3 个月前

用于姿态预测的多图卷积网络

Hongwei Ren, Yuhong Shi, Kewei Liang
用于姿态预测的多图卷积网络
摘要

近年来,人体动作预测引起了广泛关注,该任务旨在基于观测到的动作序列预测未来的身体姿态。由于需要建模空间与时间维度之间的复杂关系,该任务具有较高挑战性。目前,最常用的模型为自回归模型,如循环神经网络(RNN)及其变体,以及Transformer网络。然而,RNN存在梯度消失或梯度爆炸等固有缺陷。另有研究尝试通过融合图卷积网络(GCN)与长短期记忆网络(LSTM)来解决空间维度上的信息交互问题。但这类方法通常将时空信息分别处理,限制了模型的整体性能。为解决上述问题,本文提出一种新型方法——多图卷积网络(Multi-Graph Convolution Network, MGCN),用于三维人体姿态预测。该模型通过引入增强图结构来同时捕捉姿态序列中的空间与时间信息:多个时间帧对应多个身体部位,这些部位被整合为单一图结构实例。此外,本文还深入探讨了自然人体结构先验以及序列感知注意力机制对模型性能的影响。在大规模基准数据集Human3.6M、AMSS和3DPW上的实验结果表明,所提出的MGCN在姿态预测任务中优于现有最先进方法。