2 个月前

为开放词汇语义分割中的懒惰视觉定位辩护

Dahyun Kang; Minsu Cho

摘要

我们提出了一种名为懒惰视觉定位（lazy visual grounding）的方法，该方法分为两个阶段：无监督对象掩码发现和对象定位，用于开放词汇表的语义分割。许多先前的研究将这一任务视为像素到文本的分类问题，而没有进行对象级别的理解，利用预训练的视觉-语言模型的图像到文本分类能力。我们认为，视觉对象在本质上是一个视觉任务，即使没有先验的文本信息也可以被区分开来。懒惰视觉定位首先通过迭代归一化切割（Normalized cuts）发现覆盖图像的对象掩码，然后以延迟交互的方式为这些已发现的对象分配文本标签。我们的模型无需额外训练，在五个公开数据集上表现出色：Pascal VOC、Pascal Context、COCO-object、COCO-stuff 和 ADE 20K。特别是，具有视觉吸引力的分割结果展示了模型精确定位对象的能力。论文主页：https://cvlab.postech.ac.kr/research/lazygrounding