HyperAIHyperAI

Command Palette

Search for a command to run...

异构记忆增强的多模态注意力模型用于视频问答

Chenyou Fan extsuperscript1,* Xiaofan Zhang extsuperscript1 Shu Zhang extsuperscript1 Wensheng Wang extsuperscript1 Chi Zhang extsuperscript1 Heng Huang extsuperscript1,2,*

摘要

在本文中,我们提出了一种新颖的端到端可训练视频问答(VideoQA)框架,该框架包含三个主要组件:1)一种新的异构记忆模块,能够有效地从外观和运动特征中学习全局上下文信息;2)重新设计的问题记忆模块,有助于理解问题的复杂语义并突出查询的主题;3)一种新的多模态融合层,通过自更新注意力机制关注相关的视觉和文本线索,执行多步推理。我们的VideoQA模型首先通过将当前输入与记忆内容进行交互,分别生成具有全局上下文感知的视觉和文本特征。之后,它对多模态视觉和文本表示进行注意力融合,以推断出正确的答案。可以通过多次推理循环迭代地优化多模态数据的注意力权重,并提高问答对的最终表示。实验结果表明,我们的方法在四个VideoQA基准数据集上达到了最先进的性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
异构记忆增强的多模态注意力模型用于视频问答 | 论文 | HyperAI超神经