
摘要
我们研究了指代图像分割的问题。给定一张输入图像和一个自然语言表达,目标是在图像中分割出由该语言表达所指代的对象。现有工作在这一领域中通常将语言表达和输入图像分别进行表示,未能充分捕捉这两种模态之间的长距离关联。本文提出了一种跨模态自注意力(Cross-Modal Self-Attention, CMSA)模块,能够有效捕捉语言特征和视觉特征之间的长距离依赖关系。我们的模型可以自适应地关注指代表达中的关键词汇以及输入图像中的重要区域。此外,我们还提出了一种门控多级融合模块,用于选择性地整合不同层级的自注意力跨模态特征。该模块控制不同层级特征的信息流动。我们在四个评估数据集上验证了所提出的 方法,结果表明我们的方法始终优于现有的最先进方法。