16 天前
匹配器:通过通用特征匹配实现单次输入的任意分割
Yang Liu, Muzhi Zhu, Hengtao Li, Hao Chen, Xinlong Wang, Chunhua Shen

摘要
基于大规模预训练,视觉基础模型在开放世界图像理解任务中展现出巨大潜力。然而,与在各类语言任务中表现优异的大型语言模型不同,视觉基础模型通常需要针对特定任务设计专用的模型结构,并在具体任务上进行微调。在本工作中,我们提出了一种名为Matcher的新颖感知范式,该范式利用现成的视觉基础模型,无需训练即可应对多种感知任务。Matcher仅通过一个上下文示例即可实现“任意分割”(segment anything),展现出强大的零样本泛化能力。此外,我们在Matcher框架内设计了三个高效组件,与基础模型协同工作,充分释放其在多样化感知任务中的潜力。实验结果表明,Matcher在多种分割任务上均展现出卓越的泛化性能,且全程无需训练。例如,在COCO-20$^i$数据集上,仅使用一个示例即达到52.7%的mIoU,超越当前最优专用模型1.6%。此外,在我们提出的LVIS-92$^i$数据集上,Matcher在单样本语义分割任务中取得33.0%的mIoU,较当前最优通用模型提升14.4%。可视化结果进一步验证了Matcher在真实世界图像中的开放域泛化能力与灵活性。相关代码已开源,地址为:https://github.com/aim-uofa/Matcher。