17 天前
CroCo v2:面向立体匹配与光流任务的改进型跨视角补全预训练
Philippe Weinzaepfel, Thomas Lucas, Vincent Leroy, Yohann Cabon, Vaibhav Arora, Romain Brégier, Gabriela Csurka, Leonid Antsfeld, Boris Chidlovskii, Jérôme Revaud

摘要
尽管自监督预训练方法在高层下游任务中表现出色,但在密集几何视觉任务(如立体匹配或光流估计)方面尚未充分实现其潜力。将自监督学习范式(如实例判别或掩码图像建模)应用于几何任务,目前仍是活跃的研究方向。本文基于近期提出的跨视角补全框架——一种基于掩码图像建模的变体,该框架利用同一场景的第二视角图像,因而特别适用于双目下游任务。然而,该方法的适用性至今仍受到至少两个方面的限制:(a)真实世界图像对的采集难度较大,实践中仅使用了合成数据;(b)标准视觉Transformer在密集下游任务中泛化能力有限,因其对绝对位置的依赖较强,而此类任务中相对位置信息更具意义。为此,本文探索了三个改进方向。首先,我们提出一种大规模采集高质量真实世界图像对的方法。其次,我们尝试引入相对位置嵌入(relative positional embeddings),并实验证明其可显著提升视觉Transformer在密集几何任务中的表现。第三,我们通过利用海量数据,对基于视觉Transformer的跨视角补全过程架构进行了规模化扩展。借助上述改进,我们首次在立体匹配与光流估计任务上实现了当前最优性能,且无需依赖传统任务特定技术,如相关体积(correlation volume)、迭代估计、图像扭曲(image warping)或多尺度推理。这一成果为构建通用视觉模型开辟了新路径。