17 天前

B2C-AFM:面向人体动作识别的双向协同时空注意力融合模型

{and Jiakai Zhu, Wei Song, Qiwei Meng, Wen Wang, Xiangming Xi, Shiqiang Zhu, Tianlei Jin, Fangtai Guo}
摘要

人体动作识别是推动人机交互应用发展的核心驱动力。当前大多数研究致力于通过融合多种同质模态(如RGB图像、人体姿态和光流)来提升模型的泛化能力。此外,已有研究证实,上下文交互以及非上下文手语的表达依赖于场景类别和人类自身特征。将外观特征与人体姿态进行融合的方法已取得积极成效。然而,由于人体姿态存在空间误差和时间模糊性,现有方法在可扩展性、鲁棒性方面表现有限,且模型性能难以达到最优。本文受“不同模态可能在时间上保持一致性、在空间上具有互补性”这一假设的启发,提出一种新型的双向协同时间与跨空间注意力融合模型(Bidirectional Co-temporal and Cross-spatial Attention Fusion Model, B2C-AFM)。该模型采用异步融合策略,实现多模态特征在时间与空间维度上的联合建模。此外,本文创新性地引入了一种面向运动的显式姿态表示方法——肢体流场(Limb Flow Fields, Lff),以缓解人体姿态在时间维度上的模糊问题。在公开数据集上的实验验证了所提方法的有效性。大量消融实验进一步表明,B2C-AFM在已见与未见人体动作识别任务中均展现出优异且稳定的性能。代码已开源,地址为:https://github.com/gftww/B2C.git。