
摘要
我们提出了一种名为懒惰视觉定位(lazy visual grounding)的方法,该方法分为两个阶段:无监督对象掩码发现和对象定位,用于开放词汇表的语义分割。许多先前的研究将这一任务视为像素到文本的分类问题,而没有进行对象级别的理解,利用预训练的视觉-语言模型的图像到文本分类能力。我们认为,视觉对象在本质上是一个视觉任务,即使没有先验的文本信息也可以被区分开来。懒惰视觉定位首先通过迭代归一化切割(Normalized cuts)发现覆盖图像的对象掩码,然后以延迟交互的方式为这些已发现的对象分配文本标签。我们的模型无需额外训练,在五个公开数据集上表现出色:Pascal VOC、Pascal Context、COCO-object、COCO-stuff 和 ADE 20K。特别是,具有视觉吸引力的分割结果展示了模型精确定位对象的能力。论文主页:https://cvlab.postech.ac.kr/research/lazygrounding