2 个月前

使用组合模块网络建模指称表达中的关系

Ronghang Hu; Marcus Rohrbach; Jacob Andreas; Trevor Darrell; Kate Saenko
使用组合模块网络建模指称表达中的关系
摘要

人们经常通过实体与其他实体之间的关系来描述图像中的对象。例如,“坐在桌子下的黑猫”不仅指代一个“黑猫”实体,还涉及其与另一个“桌子”实体的关系。理解这些关系对于解释和定位此类自然语言表达至关重要。以往的大多数研究工作要么专注于将整个指代表达式整体地定位到一个区域,要么基于固定类别集对关系进行定位。本文则提出了一种模块化的深度架构,能够将指代表达式分解为其组成部分,识别输入表达式中提到的实体和关系,并将它们全部在场景中进行定位。我们称这种方法为组合模块网络(Compositional Modular Networks,简称CMNs):一种新颖的架构,可以端到端地学习语言分析和视觉推理。我们的方法围绕两种类型的神经模块构建,分别用于检查局部区域和区域间的成对交互作用。我们在多个指代表达数据集上评估了CMNs,在所有任务上均优于现有的最先进方法。