2 个月前

GIM：从互联网视频中学习泛化图像匹配器

Shen, Xuelun ; Cai, Zhipeng ; Yin, Wei ; Müller, Matthias ; Li, Zijun ; Wang, Kaixuan ; Chen, Xiaozhi ; Wang, Cheng

摘要

图像匹配是计算机视觉中的一个基本问题。尽管基于学习的方法在现有基准测试中取得了最先进的性能，但它们对野外图像的泛化能力较差。这些方法通常需要为不同的场景类型训练单独的模型，当场景类型事先未知时，这种方法并不实用。其中一个根本问题是现有的数据构建管道的可扩展性有限，这限制了标准图像匹配数据集的多样性。为了解决这一问题，我们提出了一种自训练框架——GIM（Generalizable Image Matching），该框架可以利用互联网视频（一种丰富且多样的数据源）来学习单一的泛化模型，适用于任何图像匹配架构。给定一个架构后，GIM首先在标准领域特定的数据集上对其进行训练，然后将其与互补的匹配方法结合，以在新视频的相邻帧上生成密集标签。这些标签通过鲁棒拟合进行过滤，随后通过传播到远距离帧来增强。最终模型在经过强增强处理的传播数据上进行训练。我们还提出了ZEB（Zero-Shot Evaluation Benchmark），这是首个用于图像匹配的零样本评估基准。通过混合来自不同领域的数据，ZEB可以全面评估各种方法在跨域泛化方面的性能。应用GIM可以显著提升3种最先进的图像匹配架构的零样本性能；使用50小时的YouTube视频后，相对零样本性能提高了8.4%至18.1%。此外，GIM还能够实现对极端跨域数据（如投影3D点云的鸟瞰图（BEV）图像）的泛化（图1(c)）。更重要的是，在针对各自领域下游任务的评估中，我们的单一零样本模型始终优于领域特定基线模型。视频演示可在以下链接观看：https://www.youtube.com/watch?v=FU_MJLD8LeY。