2 个月前

MUREL:用于视觉问答的多模态关系推理

Remi Cadene; Hedi Ben-younes; Matthieu Cord; Nicolas Thome
MUREL:用于视觉问答的多模态关系推理
摘要

多模态注意力网络目前是处理涉及真实图像的视觉问答(VQA)任务的最先进模型。尽管注意力机制能够聚焦于与问题相关的视觉内容,但这种简单的机制在建模VQA或其他高级任务所需的复杂推理特征方面显然不足。本文中,我们提出了一种多模态关系网络MuRel,该网络能够端到端地对真实图像进行推理。我们的第一个贡献是引入了MuRel单元,这是一种原子推理基本单元,通过丰富的向量表示来捕捉问题与图像区域之间的交互,并通过成对组合来建模区域关系。其次,我们将该单元整合到一个完整的MuRel网络中,该网络逐步细化视觉和问题的交互,并可以用于定义比简单注意力图更为精细的可视化方案。我们通过各种消融研究验证了我们方法的有效性,并在三个数据集上展示了其优于基于注意力的方法:VQA 2.0、VQA-CP v2 和 TDIUC。最终的MuRel网络在这一具有挑战性的背景下具有竞争力或超越了现有最先进结果。我们的代码已公开:https://github.com/Cadene/murel.bootstrap.pytorch