
摘要
图卷积网络(Graph Convolutional Network, GCN)近年来在三维人体姿态估计(3D Human Pose Estimation, HPE)任务中取得了令人瞩目的性能,其核心在于建模人体各部位之间的关系。然而,现有的大多数GCN方法存在两个主要局限性。首先,图卷积层中各节点共享相同的特征变换,导致难以捕捉不同人体关节之间的差异化关系。其次,图结构通常基于人体骨骼连接关系构建,而实际人体动作往往呈现出超越自然关节连接的运动模式,因此这种固定结构具有一定的局限性。为克服上述问题,本文提出一种新型的调制图卷积网络(Modulated GCN)用于3D HPE。该方法包含两个核心组件:权重调制(Weight Modulation)与亲和调制(Affinity Modulation)。权重调制为不同节点学习独立的调制向量,从而实现各节点特征变换的解耦,同时保持模型参数量较小。亲和调制则动态调整GCN中的图结构,使其能够建模超出传统人体骨骼连接的额外边,以更灵活地捕捉复杂的运动模式。我们系统研究了多种亲和调制策略,并分析了正则化项对模型性能的影响。严格的消融实验表明,两种调制机制均能有效提升模型性能,且引入的计算开销可忽略不计。与当前最先进的GCN方法相比,本文方法在保持小模型规模的前提下,显著降低姿态估计误差(例如降低约10%);或在保持相当性能的同时,将模型参数量大幅压缩——从4.22M减少至0.29M(压缩约14.5倍)。在两个主流基准数据集上的实验结果表明,所提出的Modulated GCN优于部分近期先进方法。相关代码已开源,地址为:https://github.com/ZhimingZo/Modulated-GCN。