2 个月前
GSVA:基于多模态大语言模型的广义分割
Xia, Zhuofan ; Han, Dongchen ; Han, Yizeng ; Pan, Xuran ; Song, Shiji ; Huang, Gao

摘要
广义指代表达分割(GRES)扩展了经典指代表达分割(RES)的范围,可以用于在单个表达中指代多个对象或识别图像中不存在的空目标。GRES 在建模图像实例之间的复杂空间关系以及识别不存在的指代对象方面提出了挑战。近期,多模态大语言模型(MLLMs)在这些复杂的视觉-语言任务中取得了显著进展。通过连接大语言模型(LLMs)和视觉模型,MLLMs 能够熟练地理解包含视觉输入的上下文。其中,LISA 作为一个代表,采用了特殊的 [SEG] 标记来提示分割掩码解码器(如 SAM),从而在 RES 任务中启用 MLLMs。然而,现有的 GRES 解决方案仍不尽如人意,因为当前的分割 MLLMs 无法正确处理用户可能在单一提示中引用多个主体或提供与任何图像目标不符的描述的情况。本文提出了一种广义分割视觉助手(GSVA),以解决这一问题。具体而言,GSVA 重新利用了 [SEG] 标记,以促使分割模型同时支持多个掩码引用,并创新性地学习生成一个 [REJ] 标记来明确拒绝空目标。实验验证了 GSVA 在解决 GRES 问题方面的有效性,并在 gRefCOCO 数据集上取得了显著提升,创下了新的记录。GSVA 还证明了其在各种经典的指代分割和理解任务中的有效性。