13 天前

GLA-GCN:基于全局-局部自适应图卷积网络的单目视频三维人体姿态估计

Bruce X.B. Yu, Zhi Zhang, Yongxu Liu, Sheng-hua Zhong, Yan Liu, Chang Wen Chen
GLA-GCN:基于全局-局部自适应图卷积网络的单目视频三维人体姿态估计
摘要

三维人体姿态估计已历经数十年的研究,取得了丰硕成果。其中,三维人体姿态提升(3D human pose lifting)作为该任务的重要研究方向,通过同时利用估计姿态与真实姿态数据进行训练,展现出巨大潜力。现有姿态提升方法主要致力于提升估计姿态的性能,但在真实姿态数据上进行测试时,往往表现不佳。我们观察到,通过构建高质量的二维姿态输入(如对二维姿态进行微调或采用先进的二维姿态检测器),可显著提升估计姿态的性能。因此,本文聚焦于利用真实二维姿态数据来优化三维姿态提升模型,以期为未来生成更高质量的估计姿态数据奠定基础。为此,本文提出一种简单而有效的模型——全局-局部自适应图卷积网络(Global-local Adaptive Graph Convolutional Network, GLA-GCN)。该模型通过图结构全局建模人体姿态的时空结构,并采用独立连接的局部层回溯关节特征,实现精准的三维姿态估计。为验证模型设计的有效性,我们在三个基准数据集(Human3.6M、HumanEva-I 和 MPI-INF-3DHP)上开展了大量实验。实验结果表明,使用真实二维姿态输入的GLA-GCN在各项指标上显著优于当前最先进的方法,分别在Human3.6M、HumanEva-I和MPI-INF-3DHP数据集上实现了约3%、17%和14%的误差降低。项目代码已开源,欢迎查阅:https://github.com/bruceyo/GLA-GCN。