
摘要
传统的技术在建立视觉或语义相似图像之间的密集对应关系时,主要集中在设计特定任务的匹配先验,这往往难以建模。为了解决这一问题,最近基于学习的方法尝试在大量训练数据上通过模型内部学习一个良好的匹配先验,性能提升显著,但对充足训练数据的需求和高强度的学习过程限制了这些方法的应用范围。此外,在测试阶段使用固定模型无法考虑到一对图像可能需要其自身的先验,因此导致性能有限且对未见过的图像泛化能力较差。本文中,我们展示了仅通过对未训练的匹配网络进行输入图像对的优化即可捕捉到特定于图像对的先验。为了实现这种测试时优化以进行密集对应,我们提出了一种残差匹配网络和一种置信度感知对比损失,以确保有意义的收敛。实验结果表明,我们的框架(称为深度匹配先验(Deep Matching Prior, DMP))在几何匹配和语义匹配的多个基准测试中具有竞争力,甚至优于最新的基于学习的方法,尽管它既不需要大量的训练数据也不需要高强度的学习。在网络预训练后,DMP 在所有基准测试中均达到了最先进的性能。