
摘要
我们研究了指代图像分割(Referring Image Segmentation, RIS),该任务旨在根据自然语言描述生成对应的分割图。高效解决RIS问题需要同时考虑视觉与语言模态之间的跨模态交互,以及各模态内部的 intra-modal 交互。现有方法存在局限性:要么以串行方式依次计算不同形式的交互(导致误差传播),要么完全忽略模态内部的交互。为克服这一局限,我们提出一种同步多模态融合模块(Synchronous Multi-Modal Fusion Module, SFM),实现三种交互的并行处理。此外,为生成更精细的分割掩码,我们设计了一种新型分层跨模态聚合模块(Hierarchical Cross-Modal Aggregation Module, HCAM),其中语言特征驱动视觉层次结构中上下文信息的高效传递与交换。我们在四个基准数据集上进行了全面的消融实验,验证了所提方法的有效性,结果表明其在性能上显著超越现有最先进(State-of-the-Art, SOTA)方法。