HyperAIHyperAI

Command Palette

Search for a command to run...

基于跨模态注意力的双流视频分类

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian

摘要

融合多模态信息在视频分类中被证明能够显著提升性能。然而,目前最流行的方法仍然是在最后阶段简单地融合每个流的预测分数。一个合理的问题是是否存在一种更有效的跨模态信息融合方法。随着自然语言处理领域注意力机制的发展,注意力机制在计算机视觉领域的应用也取得了许多成功。本文提出了一种跨模态注意力操作,该操作能够以比双流方法更有效的方式从其他模态获取信息。相应地,我们实现了一个兼容模块,称为CMA模块(Cross-Modality Attention block),它是所提出的注意力操作的封装。CMA模块可以嵌入到许多现有的架构中。在实验中,我们将所提出的方法与广泛用于视频分类的双流模型和非局部模型进行了全面比较。所有实验结果均明确展示了我们所提出方法的强大性能优势。我们还通过可视化注意力图分析了CMA模块的优势,直观地展示了该模块如何帮助最终预测。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于跨模态注意力的双流视频分类 | 论文 | HyperAI超神经