2 个月前

双注意力网络在多模态推理与匹配中的应用

Hyeonseob Nam; Jung-Woo Ha; Jeonghee Kim
双注意力网络在多模态推理与匹配中的应用
摘要

我们提出了一种双注意力网络(Dual Attention Networks, DANs),该网络通过联合利用视觉和文本注意力机制来捕捉视觉与语言之间的细粒度交互。DANs 通过多个步骤关注图像中的特定区域和文本中的特定词汇,从而从这两种模态中收集关键信息。基于这一框架,我们分别引入了两种类型的 DANs,用于多模态推理和匹配。推理模型允许视觉和文本注意力在协作推断过程中相互引导,这对于诸如视觉问答(Visual Question Answering, VQA)等任务非常有用。此外,匹配模型利用这两种注意力机制,通过聚焦于图像和句子的共有语义来估计它们之间的相似度。我们的大量实验验证了 DANs 在结合视觉与语言方面的有效性,在 VQA 和图像-文本匹配的公开基准测试中达到了最先进的性能。