2 个月前
GIM:从互联网视频中学习泛化图像匹配器
Shen, Xuelun ; Cai, Zhipeng ; Yin, Wei ; Müller, Matthias ; Li, Zijun ; Wang, Kaixuan ; Chen, Xiaozhi ; Wang, Cheng

摘要
图像匹配是计算机视觉中的一个基本问题。尽管基于学习的方法在现有基准测试中取得了最先进的性能,但它们对野外图像的泛化能力较差。这些方法通常需要为不同的场景类型训练单独的模型,当场景类型事先未知时,这种方法并不实用。其中一个根本问题是现有的数据构建管道的可扩展性有限,这限制了标准图像匹配数据集的多样性。为了解决这一问题,我们提出了一种自训练框架——GIM(Generalizable Image Matching),该框架可以利用互联网视频(一种丰富且多样的数据源)来学习单一的泛化模型,适用于任何图像匹配架构。给定一个架构后,GIM首先在标准领域特定的数据集上对其进行训练,然后将其与互补的匹配方法结合,以在新视频的相邻帧上生成密集标签。这些标签通过鲁棒拟合进行过滤,随后通过传播到远距离帧来增强。最终模型在经过强增强处理的传播数据上进行训练。我们还提出了ZEB(Zero-Shot Evaluation Benchmark),这是首个用于图像匹配的零样本评估基准。通过混合来自不同领域的数据,ZEB可以全面评估各种方法在跨域泛化方面的性能。应用GIM可以显著提升3种最先进的图像匹配架构的零样本性能;使用50小时的YouTube视频后,相对零样本性能提高了8.4%至18.1%。此外,GIM还能够实现对极端跨域数据(如投影3D点云的鸟瞰图(BEV)图像)的泛化(图1(c))。更重要的是,在针对各自领域下游任务的评估中,我们的单一零样本模型始终优于领域特定基线模型。视频演示可在以下链接观看:https://www.youtube.com/watch?v=FU_MJLD8LeY。