
人类如何理解与识别他人行为,是一个涉及多种认知机制与神经网络协同作用的复杂神经科学问题。研究表明,人类大脑中存在专门处理自上而下注意力信息的动作识别区域,例如颞顶联合区(temporoparietal association area);同时,也存在专门用于理解他人心理状态并分析其意图的脑区,如颞叶的内侧前额叶皮层(medial prefrontal cortex)。基于骨架的动作识别通过建立人体骨架运动模式与行为之间的复杂关联映射,实现对动作的建模。尽管已有研究通过编码有意义的节点关系并合成动作表征,在分类任务中取得了良好效果,但鲜有工作考虑引入先验知识以辅助表征学习,从而进一步提升性能。为此,本文提出LA-GCN(Language-Assisted Graph Convolution Network),一种借助大规模语言模型(Large-Scale Language Models, LLM)知识增强的图卷积网络。首先,将LLM所蕴含的先验知识映射为两类拓扑结构:全局关系先验(Global Prior Relationship, GPR)与类别关系先验(Category Prior Relationship, CPR)。其中,GPR用于引导生成新的“骨骼”节点表征,旨在从数据层面强化关键节点信息的表达;而CPR则模拟人类大脑区域中已知的类别先验知识,由PC-AC模块进行编码,并作为额外监督信号,促使模型学习具有类别区分能力的特征表示。此外,为提升拓扑建模中的信息传递效率,本文提出多跳注意力图卷积(multi-hop attention graph convolution)机制。该机制可同时聚合每个节点的k阶邻域信息,显著加速模型收敛过程。实验结果表明,LA-GCN在NTU RGB+D、NTU RGB+D 120以及NW-UCLA等多个公开数据集上均达到当前最优(state-of-the-art)性能,验证了所提方法的有效性与先进性。