
摘要
指代图像分割是一项典型的多模态任务,旨在根据给定的语言描述生成对应的二值掩码以定位目标对象。以往的方法通常采用双模态框架,将图像与语言作为两个独立模态,构建一个编码器-融合-解码器的处理流程。然而,这种架构在该任务上存在两个主要局限性:其一,仅融合由单模态编码器分别提取的高层特征,导致跨模态学习不够充分;其二,单模态编码器独立预训练,使得预训练任务与目标多模态任务之间存在不一致性。此外,该类方法通常忽视或未能有效利用直观上具有价值的实例级特征。为缓解上述问题,本文提出 MaIL(Mask-Image-Language),一种更为简洁的编码器-解码器架构,并引入一个掩码-图像-语言三模态编码器。具体而言,MaIL 将单模态特征提取器及其融合机制统一为一个深层模态交互编码器,显著增强了不同模态之间的特征交互能力。同时,由于不再依赖独立的单模态编码器,该方法有效规避了第二项局限性。更重要的是,本文首次提出将实例掩码作为额外模态引入模型,显式强化实例级特征表达,从而促进更精细的分割结果。在多个常用指代图像分割数据集(包括 RefCOCO、RefCOCO+ 和 G-Ref)上,所提出的 MaIL 方法均取得了新的最先进性能,相较于此前最优方法,各项指标提升达 3%–10%。相关代码即将开源。