
摘要
融合多模态信息在视频分类中被证明能够显著提升性能。然而,目前最流行的方法仍然是在最后阶段简单地融合每个流的预测分数。一个合理的问题是是否存在一种更有效的跨模态信息融合方法。随着自然语言处理领域注意力机制的发展,注意力机制在计算机视觉领域的应用也取得了许多成功。本文提出了一种跨模态注意力操作,该操作能够以比双流方法更有效的方式从其他模态获取信息。相应地,我们实现了一个兼容模块,称为CMA模块(Cross-Modality Attention block),它是所提出的注意力操作的封装。CMA模块可以嵌入到许多现有的架构中。在实验中,我们将所提出的方法与广泛用于视频分类的双流模型和非局部模型进行了全面比较。所有实验结果均明确展示了我们所提出方法的强大性能优势。我们还通过可视化注意力图分析了CMA模块的优势,直观地展示了该模块如何帮助最终预测。