Command Palette
Search for a command to run...
MAttNet:用于指代表达理解的模块化注意力网络
MAttNet:用于指代表达理解的模块化注意力网络
摘要
本文研究指代表达理解任务:根据自然语言描述定位图像中的特定区域。尽管现有大多数方法将指代表达视为一个整体单元,我们提出将其分解为三个模块化组件,分别对应主体外观、位置信息以及与其他物体之间的关系。这种分解方式使模型能够在端到端框架下灵活适应包含不同类型信息的表达。我们提出的模型名为模块化注意力网络(Modular Attention Network, MAttNet),其采用两种注意力机制:基于语言的注意力,用于学习各模块的权重以及每个模块应关注的语言词或短语;以及视觉注意力,使主体模块和关系模块能够聚焦于图像中相关的视觉成分。各模块的得分通过动态组合三种模块的输出,生成最终的整体评分。实验结果表明,MAttNet在边界框级别和像素级别两种指代表达理解任务上,均显著优于此前的最先进方法。相关演示与代码已公开提供。