
动作识别是计算机视觉领域一个极具前景的研究方向,然而由于数据稀缺和模型参数量庞大,视频分类模型的训练远比图像分类更具挑战性。为应对这一难题,部分研究尝试从RGB-D数据中挖掘多模态线索。尽管这些方法在一定程度上提升了动作识别性能,但仍存在以下几方面不足:(i)数据增强方面,现有RGB-D数据集规模仍然有限,针对视频数据的新型数据增强策略研究仍显不足;(ii)优化机制方面,紧密耦合的时空网络结构给时空信息建模带来了更大的挑战;(iii)跨模态知识融合方面,多模态表示之间高度相似,导致后期融合效果受限,难以充分挖掘模态间的互补信息。为缓解上述问题,本文从数据与算法双重视角出发,提出了一种改进的基于RGB-D的动作识别方法。具体而言,首先,我们提出一种新颖的视频数据增强方法——ShuffleMix,作为MixUp方法的补充,旨在为动作识别任务引入额外的时间维度正则化。其次,设计了一种统一的多模态解耦与多阶段再耦合框架(Unified Multimodal De-coupling and multi-stage Re-coupling, UMDR),用于提升视频表征学习能力。最后,提出一种新型的跨模态互补特征捕捉器(Complement Feature Catcher, CFCer),用于挖掘多模态信息中潜在的共性特征,并将其作为辅助融合通道,以增强后期融合效果。上述创新设计的无缝集成,构建了一个鲁棒的时空表征学习体系,在四个公开的动作识别数据集上均取得了优于当前最先进方法的性能表现。尤其在Chalearn IsoGD数据集上,UMDR实现了前所未有的性能提升,准确率提升了+4.5%。相关代码已开源,地址为:https://github.com/zhoubenjia/MotionRGBD-PAMI。