
摘要
本文介绍了Fusion-GCN,一种基于图卷积网络(GCNs)的多模态动作识别方法。近年来,围绕GCNs构建的动作识别方法在基于骨架的动作识别中取得了最先进的性能。通过Fusion-GCN,我们提出了一种将多种传感器数据模态整合到一个图中的方法,并使用GCN模型进行训练以实现多模态动作识别。额外的传感器测量数据被纳入图表示中,既可以在通道维度上(引入额外的节点属性),也可以在空间维度上(引入新的节点)。Fusion-GCN在两个公开可用的数据集——UTD-MHAD和MMACT数据集上进行了评估,展示了RGB序列、惯性测量和骨架序列的灵活融合。我们的方法在UTD-MHAD数据集上获得了可比的结果,并且通过融合骨架估计和加速度计测量,在大规模MMACT数据集上显著提升了基线性能,最高可达12.37%(F1值)。