
摘要
现有大多数方法并未显式建模视觉与语言之间的相互引导关系。在本工作中,我们提出了一种双向关系推理网络(Bi-directional Relationship Inferring Network, BRINet),用于建模跨模态信息之间的依赖关系。具体而言,视觉引导的语言注意力机制用于学习与每个视觉区域相对应的自适应语言上下文;结合语言引导的视觉注意力机制,构建了一个双向跨模态注意力模块(Bi-directional Cross-modal Attention Module, BCAM),以捕捉多模态特征之间的关联。由此,目标物体与指代表达的最终语义上下文能够被准确且一致地表示。此外,我们设计了一种门控双向融合模块(Gated Bi-directional Fusion Module, GBFM),用于整合多层次特征,并引入门控机制以引导多层次信息的双向流动。在四个基准数据集上的大量实验表明,所提出的方法在不同评估指标下均优于现有的最先进方法。