HyperAI超神经

空中MegaDepth:学习空地重建与视图合成

Khiem Vuong, Anurag Ghosh, Deva Ramanan, Srinivasa Narasimhan, Shubham Tulsiani
发布日期: 4/23/2025
空中MegaDepth:学习空地重建与视图合成
摘要

我们探讨了从地面和空中视角混合拍摄的图像进行几何重建的任务。当前最先进的基于学习的方法无法处理空中-地面图像对之间的极端视角变化。我们的假设是,缺乏高质量的、同步注册的空中-地面数据集用于训练是导致这一失败的关键原因。这类数据难以精确组装,正是因为难以以可扩展的方式进行重建。为克服这一挑战,我们提出了一种结合来自3D城市网格(如Google Earth)的伪合成渲染与真实的、地面级别的众包图像(如MegaDepth)的可扩展框架。伪合成数据模拟了广泛的空中视角,而真实的众包图像有助于提高地面级别图像的视觉保真度,在网格渲染缺乏足够细节的地方提供帮助,从而有效地弥合了真实图像与伪合成渲染之间的领域差距。利用这种混合数据集,我们对几种最先进的算法进行了微调,并在现实世界中的零样本空中-地面任务上取得了显著改进。例如,我们观察到基线DUSt3R算法在相机旋转误差5度以内定位的空中-地面图像对少于5%,而使用我们的数据进行微调后,准确率提升至近56%,解决了处理大视角变化时的主要失败点。除了相机估计和场景重建之外,我们的数据集还提高了在具有挑战性的空中-地面场景中生成新视角等下游任务的表现,展示了我们方法在实际应用中的实用价值。