16 天前

匹配器：通过通用特征匹配实现单次输入的任意分割

Yang Liu, Muzhi Zhu, Hengtao Li, Hao Chen, Xinlong Wang, Chunhua Shen

摘要

基于大规模预训练，视觉基础模型在开放世界图像理解任务中展现出巨大潜力。然而，与在各类语言任务中表现优异的大型语言模型不同，视觉基础模型通常需要针对特定任务设计专用的模型结构，并在具体任务上进行微调。在本工作中，我们提出了一种名为Matcher的新颖感知范式，该范式利用现成的视觉基础模型，无需训练即可应对多种感知任务。Matcher仅通过一个上下文示例即可实现“任意分割”（segment anything），展现出强大的零样本泛化能力。此外，我们在Matcher框架内设计了三个高效组件，与基础模型协同工作，充分释放其在多样化感知任务中的潜力。实验结果表明，Matcher在多种分割任务上均展现出卓越的泛化性能，且全程无需训练。例如，在COCO-20$^i$数据集上，仅使用一个示例即达到52.7%的mIoU，超越当前最优专用模型1.6%。此外，在我们提出的LVIS-92$^i$数据集上，Matcher在单样本语义分割任务中取得33.0%的mIoU，较当前最优通用模型提升14.4%。可视化结果进一步验证了Matcher在真实世界图像中的开放域泛化能力与灵活性。相关代码已开源，地址为：https://github.com/aim-uofa/Matcher。