2 个月前

MAttNet: 模块化注意力网络用于指代表达理解

Yu, Licheng ; Lin, Zhe ; Shen, Xiaohui ; Yang, Jimei ; Lu, Xin ; Bansal, Mohit ; Berg, Tamara L.
MAttNet: 模块化注意力网络用于指代表达理解
摘要

本文探讨了指代表达理解问题:即根据自然语言描述定位图像中的特定区域。尽管大多数近期研究将表达视为一个整体单元,我们提出将其分解为三个模块化组件,分别对应主体外观、位置以及与其他物体的关系。这一方法使我们的模型能够在端到端框架中灵活适应包含不同类型信息的表达。在我们提出的模型——模块化注意力网络(Modular Attention Network, MAttNet)中,利用了两种类型的注意力机制:基于语言的注意力机制用于学习各模块的权重及每个模块应关注的词语/短语;视觉注意力机制则允许主体和关系模块聚焦于相关的图像部分。模块权重动态结合来自所有三个模块的评分,以输出总体评分。实验结果表明,MAttNet在边界框级和像素级理解任务上均大幅超越了先前的最佳方法。此外,我们还提供了演示和代码。

MAttNet: 模块化注意力网络用于指代表达理解 | 最新论文 | HyperAI超神经