11 天前

基于跨模态渐进式理解的图像指代分割

Shaofei Huang, Tianrui Hui, Si Liu, Guanbin Li, Yunchao Wei, Jizhong Han, Luoqi Liu, Bo Li
基于跨模态渐进式理解的图像指代分割
摘要

指代图像分割(Referring Image Segmentation)旨在分割出与自然语言描述中所指实体高度匹配的前景掩码。以往的方法通常通过视觉与语言模态之间的隐式特征交互与融合来解决该问题,但往往未能充分挖掘语言表达中的关键信息词,从而难以实现两模态特征的精准对齐,导致对目标实体的准确识别能力受限。为此,本文提出一种跨模态渐进式理解(Cross-Modal Progressive Comprehension, CMPC)模块与一种文本引导的特征交换(Text-Guided Feature Exchange, TGFE)模块,以有效应对这一挑战。具体而言,CMPC模块首先利用实体词和属性词感知语言表达可能涉及的所有相关实体;随后,通过关系词结合多模态图推理机制,突出正确的目标实体,同时抑制其他无关实体。此外,本文进一步引入一种简洁而高效的TGFE模块,借助文本信息的引导,将不同层次上推理得到的多模态特征进行融合。该机制使得多层级特征能够在文本语境的指导下实现相互交流与优化,从而获得更具语义一致性的表示。我们在四个主流的指代图像分割基准数据集上进行了大量实验,结果表明所提方法在各项指标上均取得了新的最先进性能(state-of-the-art),显著提升了模型对复杂语言描述的理解与定位能力。

基于跨模态渐进式理解的图像指代分割 | 最新论文 | HyperAI超神经