
摘要
参考图像分割(Referring Image Segmentation, RIS)是一项具有挑战性的任务,要求算法根据自由形式的语言表达准确分割出对应的图像对象。尽管近年来取得了显著进展,但大多数当前最先进(SOTA)的方法在像素级和词元级上仍存在显著的语言-图像模态鸿沟。这些方法通常存在两个关键问题:1)依赖句子级别的语言特征进行语言与图像的对齐;2)缺乏对细粒度视觉定位的显式训练监督。因此,它们在视觉特征与语言特征之间表现出较弱的对象级对应关系。由于缺乏充分定位的语言特征,现有方法难以理解需要对多个对象间复杂关系进行强推理的复杂表达,尤其是在处理罕见或语义模糊的子句时表现尤为不足。为应对这一挑战,我们提出了一种新颖的掩码定位(Mask Grounding)辅助任务,该任务通过显式指导模型学习被掩码的文本词元与其对应视觉对象之间的细粒度对应关系,显著提升了语言特征中的视觉定位能力。Mask Grounding 可直接应用于已有 RIS 方法,且能持续带来性能提升。此外,为全面缓解模态鸿沟问题,我们还设计了一种跨模态对齐损失函数及配套的对齐模块。这些组件与 Mask Grounding 协同工作,形成互补增强效应。综合上述技术,我们构建了名为 MagNet(Mask-grounded Network) 的全新网络架构。在三个关键基准数据集(RefCOCO、RefCOCO+ 和 G-Ref)上,MagNet 显著优于现有方法,充分验证了本方法在解决当前 RIS 算法局限性方面的有效性。相关代码与预训练权重将公开发布。