HyperAIHyperAI

Command Palette

Search for a command to run...

匹配器:通过通用特征匹配实现单次输入的任意分割

Yang Liu Muzhi Zhu Hengtao Li Hao Chen Xinlong Wang Chunhua Shen

摘要

基于大规模预训练,视觉基础模型在开放世界图像理解任务中展现出巨大潜力。然而,与在各类语言任务中表现优异的大型语言模型不同,视觉基础模型通常需要针对特定任务设计专用的模型结构,并在具体任务上进行微调。在本工作中,我们提出了一种名为Matcher的新颖感知范式,该范式利用现成的视觉基础模型,无需训练即可应对多种感知任务。Matcher仅通过一个上下文示例即可实现“任意分割”(segment anything),展现出强大的零样本泛化能力。此外,我们在Matcher框架内设计了三个高效组件,与基础模型协同工作,充分释放其在多样化感知任务中的潜力。实验结果表明,Matcher在多种分割任务上均展现出卓越的泛化性能,且全程无需训练。例如,在COCO-20i^ii数据集上,仅使用一个示例即达到52.7%的mIoU,超越当前最优专用模型1.6%。此外,在我们提出的LVIS-92i^ii数据集上,Matcher在单样本语义分割任务中取得33.0%的mIoU,较当前最优通用模型提升14.4%。可视化结果进一步验证了Matcher在真实世界图像中的开放域泛化能力与灵活性。相关代码已开源,地址为:https://github.com/aim-uofa/Matcher


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供