
摘要
时空特征学习在视频动作识别中具有核心重要性。现有的深度神经网络模型要么独立学习空间与时间特征(如C2D),要么以无约束参数的方式联合学习时空特征(如C3D)。本文提出一种新型神经运算机制,通过在可学习参数上施加权重共享约束,实现时空特征的协同编码。具体而言,我们在体素化视频数据的三个正交视图上分别执行二维卷积,分别捕捉空间外观特征与时间运动线索。通过共享不同视图之间的卷积核,空间与时间特征得以协同学习,从而相互促进。随后,通过端到端学习的加权求和方式对互补特征进行融合,融合系数由模型自动优化。所提方法在大规模基准数据集上取得了当前最优的性能,并在2018年Moments in Time挑战赛中获得第一名。此外,基于不同视图所学得的融合系数,我们能够定量评估空间特征与时间特征的贡献程度。该分析不仅增强了模型的可解释性,也为未来视频识别算法的设计提供了重要指导。