2 个月前

异构记忆增强的多模态注意力模型用于视频问答

Chenyou Fan; Xiaofan Zhang; Shu Zhang; Wensheng Wang; Chi Zhang; Heng Huang

摘要

在本文中，我们提出了一种新颖的端到端可训练视频问答（VideoQA）框架，该框架包含三个主要组件：1）一种新的异构记忆模块，能够有效地从外观和运动特征中学习全局上下文信息；2）重新设计的问题记忆模块，有助于理解问题的复杂语义并突出查询的主题；3）一种新的多模态融合层，通过自更新注意力机制关注相关的视觉和文本线索，执行多步推理。我们的VideoQA模型首先通过将当前输入与记忆内容进行交互，分别生成具有全局上下文感知的视觉和文本特征。之后，它对多模态视觉和文本表示进行注意力融合，以推断出正确的答案。可以通过多次推理循环迭代地优化多模态数据的注意力权重，并提高问答对的最终表示。实验结果表明，我们的方法在四个VideoQA基准数据集上达到了最先进的性能。