2 个月前
异构记忆增强的多模态注意力模型用于视频问答
Chenyou Fan; Xiaofan Zhang; Shu Zhang; Wensheng Wang; Chi Zhang; Heng Huang

摘要
在本文中,我们提出了一种新颖的端到端可训练视频问答(VideoQA)框架,该框架包含三个主要组件:1)一种新的异构记忆模块,能够有效地从外观和运动特征中学习全局上下文信息;2)重新设计的问题记忆模块,有助于理解问题的复杂语义并突出查询的主题;3)一种新的多模态融合层,通过自更新注意力机制关注相关的视觉和文本线索,执行多步推理。我们的VideoQA模型首先通过将当前输入与记忆内容进行交互,分别生成具有全局上下文感知的视觉和文本特征。之后,它对多模态视觉和文本表示进行注意力融合,以推断出正确的答案。可以通过多次推理循环迭代地优化多模态数据的注意力权重,并提高问答对的最终表示。实验结果表明,我们的方法在四个VideoQA基准数据集上达到了最先进的性能。