HyperAIHyperAI

Command Palette

Search for a command to run...

为开放词汇语义分割中的懒惰视觉定位辩护

Dahyun Kang Minsu Cho

摘要

我们提出了一种名为懒惰视觉定位(lazy visual grounding)的方法,该方法分为两个阶段:无监督对象掩码发现和对象定位,用于开放词汇表的语义分割。许多先前的研究将这一任务视为像素到文本的分类问题,而没有进行对象级别的理解,利用预训练的视觉-语言模型的图像到文本分类能力。我们认为,视觉对象在本质上是一个视觉任务,即使没有先验的文本信息也可以被区分开来。懒惰视觉定位首先通过迭代归一化切割(Normalized cuts)发现覆盖图像的对象掩码,然后以延迟交互的方式为这些已发现的对象分配文本标签。我们的模型无需额外训练,在五个公开数据集上表现出色:Pascal VOC、Pascal Context、COCO-object、COCO-stuff 和 ADE 20K。特别是,具有视觉吸引力的分割结果展示了模型精确定位对象的能力。论文主页:https://cvlab.postech.ac.kr/research/lazygrounding


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供