18 days ago
VGGT:视觉几何接地变压器
Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

摘要
我们介绍了VGGT,一种前馈神经网络,该网络能够直接从一个、几个或数百个视图中推断出场景的所有关键3D属性,包括相机参数、点云图、深度图和3D点轨迹。这一方法在3D计算机视觉领域迈出了重要一步,以往的模型通常仅限于并专门针对单一任务。此外,该方法还具有简单高效的特点,能够在不到一秒的时间内重建图像,并且其性能仍然优于需要通过视觉几何优化技术进行后处理的替代方案。该网络在多个3D任务中取得了最先进的结果,包括相机参数估计、多视角深度估计、密集点云重建和3D点跟踪。我们还展示了使用预训练的VGGT作为特征骨干可以显著提升下游任务的性能,例如非刚性点跟踪和前馈新视图合成。代码和模型已在以下https链接公开提供。