
摘要
我们致力于解决使用深度模型进行视频识别时面临的运动表示学习这一难题。为此,我们利用注意力模块来学习突出视频中的特定区域并聚合特征以用于识别。具体而言,我们提出利用输出注意力图作为媒介,将从运动(光流)网络学到的表示迁移到RGB网络中。我们系统地研究了注意力模块的设计,并开发了一种新的注意力蒸馏方法。我们的方法在主要的动作基准数据集上进行了评估,结果表明该方法显著提升了基线RGB网络的性能。此外,我们还证明了我们的注意力图能够在学习过程中利用运动线索来确定视频帧中动作的位置。我们认为,该方法为在深度模型中学习运动感知表示提供了一个重要的步骤。项目页面可访问 https://aptx4869lm.github.io/AttentionDistillation/