3 个月前
基于多流运动建模与互信息最大化的行为识别
Yuheng Yang, Haipeng Chen, Zhenguang Liu, Yingda Lyu, Beibei Zhang, Shuang Wu, Zhibo Wang, Kui Ren

摘要
动作识别长期以来一直是人工智能领域中一个基础且引人关注的问题。该任务之所以具有挑战性,主要源于动作本身的高维特性,以及需要捕捉细微的运动细节。当前最先进的方法通常在三维欧几里得空间中直接学习人体关节的运动序列,然而,原始的欧几里得空间在建模关键运动特征(如关节间的角加速度)方面效率较低,而角加速度能够揭示运动背后的驱动力。此外,现有方法通常对各个通道给予同等关注,缺乏理论约束以有效提取与任务相关的关键特征。本文从三个方面着手解决上述挑战:(1)我们提出引入加速度表示,显式建模运动中的高阶变化特征;(2)设计了一种新型的多流图卷积网络(Stream-GCN),该网络包含多流结构与通道注意力机制,不同表示流之间相互补充,从而提升动作识别的精度,同时注意力机制能够聚焦于对任务更重要的通道;(3)我们探索了在特征层面进行监督,以最大化任务相关信息的提取,并将其形式化为互信息损失函数。实验结果表明,所提方法在三个基准数据集——NTU RGB+D、NTU RGB+D 120 和 NW-UCLA 上均取得了新的最先进性能。相关代码已匿名发布于 https://github.com/ActionR-Group/Stream-GCN,旨在为学术社区提供启发与参考。