2 个月前
RoMa:鲁棒密集特征匹配
Edstedt, Johan ; Sun, Qiyu ; Bökman, Georg ; Wadenbäck, Mårten ; Felsberg, Michael

摘要
特征匹配是计算机视觉中的一个重要任务,涉及估计三维场景中两幅图像之间的对应关系,而密集方法则用于估计所有这些对应关系。目标是学习一个鲁棒模型,即能够在现实世界中应对各种挑战性变化的模型。在本研究中,我们提出了一种这样的模型,利用来自基础模型DINOv2的冻结预训练特征。尽管这些特征比从头开始训练的局部特征显著更加鲁棒,但它们本质上较为粗糙。因此,我们将这些特征与专门的卷积神经网络(ConvNet)细粒度特征相结合,构建了一个精确可定位的特征金字塔。为了进一步提高鲁棒性,我们提出了一种定制的变压器匹配解码器(transformer match decoder),该解码器预测锚点概率,从而能够表达多模态特性。最后,我们通过分类回归结合后续的鲁棒回归提出了改进的损失函数公式。我们进行了一系列全面的实验,结果表明我们的方法RoMa取得了显著的进步,并树立了新的最先进水平。特别是在极具挑战性的WxBS基准测试中,我们的方法实现了36%的性能提升。代码已提供在https://github.com/Parskatt/RoMa。