
摘要
给定一个自然语言表达式和一张图像或视频,指代分割(referring segmentation)的目标是生成由表达式主语所描述实体的像素级掩码。以往的方法通常采用单阶段的方式,通过隐式地在视觉与语言模态之间进行特征交互与融合来解决该问题。然而,人类在解决指代问题时往往采取渐进式的认知过程:基于表达式中的关键信息词,首先粗略定位可能的候选实体,再逐步区分出目标实体。本文提出一种跨模态渐进式理解(Cross-Modal Progressive Comprehension, CMPC)框架,旨在有效模拟人类的认知行为,并将其分别实现为适用于图像的CMPC-I模块和适用于视频的CMPC-V模块,以提升指代图像与视频分割模型的性能。针对图像数据,CMPC-I模块首先利用实体词和属性词感知表达式可能涉及的所有相关实体;随后,通过关系词结合空间图推理机制,突出目标实体并抑制其他无关实体。针对视频数据,CMPC-V模块在CMPC-I的基础上进一步引入动作词,借助时间图推理机制,定位与动作线索相匹配的正确实体。此外,本文还提出一种简单而有效的文本引导特征交换(Text-Guided Feature Exchange, TGFE)模块,该模块在文本信息的引导下,整合视觉骨干网络中不同层次的推理后多模态特征。通过该机制,多层级特征能够在文本语境的指导下实现相互交流与协同优化。将CMPC-I或CMPC-V与TGFE相结合,即可构建出适用于图像或视频的指代分割框架。实验结果表明,所提出的框架在四个指代图像分割基准数据集和三个指代视频分割基准数据集上均取得了新的最先进(SOTA)性能。