
基于骨骼的动作识别因其采用简洁且鲁棒的骨骼数据而受到广泛关注。然而,骨骼本身缺乏详细的体态信息,限制了模型性能;而其他多模态方法则通常需要大量的推理资源,在训练与推理阶段使用多模态数据时效率较低。为解决上述问题并充分挖掘多模态特征之间的互补性,本文提出一种新型的多模态协同学习(Multi-Modality Co-Learning, MMCL)框架。该框架利用多模态大语言模型(Multimodal Large Language Models, LLMs)作为辅助网络,实现高效的动作识别:在训练阶段进行多模态协同学习,而在推理阶段仅依赖简洁的骨骼数据,从而保持高效性。本MMCL框架主要由两个核心模块构成。首先,特征对齐模块(Feature Alignment Module, FAM)从视频帧中提取丰富的RGB特征,并通过对比学习将这些特征与全局骨骼特征进行对齐,以增强模态间的一致性。其次,特征精炼模块(Feature Refinement Module, FRM)结合带有时间信息的RGB图像与文本指令,借助多模态大语言模型强大的泛化能力,生成具有指导意义的文本特征。这些生成的文本特征进一步用于优化分类得分,其作用类似于软标签(soft labels),显著提升了模型的鲁棒性与泛化能力。在NTU RGB+D、NTU RGB+D 120以及Northwestern-UCLA等多个基准数据集上的大量实验结果一致验证了MMCL框架的有效性,其性能超越了现有的各类基于骨骼的动作识别方法。此外,在UTD-MHAD与SYSU-Action数据集上的零样本(zero-shot)与领域自适应(domain-adaptive)动作识别实验也充分展示了MMCL出色的泛化能力。本工作的代码已公开,访问地址为:https://github.com/liujf69/MMCL-Action。