一、教程简介

VGGT 是由 Meta AI 团队与牛津大学视觉几何组（VGG）于 2025 年 3 月 28 日发布的前馈神经网络，可在几秒钟内从一个、几个或数百个视图中直接推断场景的所有关键 3D 属性，包括外部和内部摄像机参数、点图、深度图和 3D 点轨迹。它还兼具简单性和高效性，可在一秒内完成重建，甚至超越了需要借助视觉几何优化技术进行后处理的替代方法。相关论文成果为 VGGT: Visual Geometry Grounded Transformer，已被 CVPR 2025 接受并获得 CVPR 2025 最佳论文奖。

本教程采用资源为单卡 RTX 4090 。

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可使用模型

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

使用步骤

参数说明：

Select a Prediction Mode：

Depthmap and Camera Branch：使用深度图和相机位姿分支进行重建。
Pointmap Branch：直接使用点云分支进行重建。

Confidence Threshold：置信度阈值，用于筛选模型输出中的置信度较高的结果。

Show Points from Frame：是否显示从所选帧提取的点。

Show Camera：是否显示相机位姿。

Filter Sky：是否过滤天空点。

Filter Black Background：是否过滤背景为黑色的点。

Filter White Background：是否过滤背景为白色的点。

引用信息

本项目引用信息如下：

@inproceedings{wang2025vggt, title={VGGT: Visual Geometry Grounded Transformer}, author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2025} }

HyperAI

运行此教程在 Discord 上讨论

日期

8 个月前

大小

967.01 MB

许可证

CC BY 4.0

GitHub

facebookresearch/vggt

论文 URL

2503.11651

一、教程简介

本教程采用资源为单卡 RTX 4090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可使用模型

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

使用步骤

参数说明：

Select a Prediction Mode：
- Depthmap and Camera Branch：使用深度图和相机位姿分支进行重建。
- Pointmap Branch：直接使用点云分支进行重建。
Confidence Threshold：置信度阈值，用于筛选模型输出中的置信度较高的结果。
Show Points from Frame：是否显示从所选帧提取的点。
Show Camera：是否显示相机位姿。
Filter Sky：是否过滤天空点。
Filter Black Background：是否过滤背景为黑色的点。
Filter White Background：是否过滤背景为白色的点。

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

本项目引用信息如下：

@inproceedings{wang2025vggt,
  title={VGGT: Visual Geometry Grounded Transformer},
  author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2025}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

8 个月前

大小

967.01 MB

许可证

CC BY 4.0

GitHub

facebookresearch/vggt

论文 URL

2503.11651

一、教程简介

本教程采用资源为单卡 RTX 4090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可使用模型

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

使用步骤

参数说明：

Select a Prediction Mode：
- Depthmap and Camera Branch：使用深度图和相机位姿分支进行重建。
- Pointmap Branch：直接使用点云分支进行重建。
Confidence Threshold：置信度阈值，用于筛选模型输出中的置信度较高的结果。
Show Points from Frame：是否显示从所选帧提取的点。
Show Camera：是否显示相机位姿。
Filter Sky：是否过滤天空点。
Filter Black Background：是否过滤背景为黑色的点。
Filter White Background：是否过滤背景为白色的点。

四、交流探讨

引用信息

本项目引用信息如下：

@inproceedings{wang2025vggt,
  title={VGGT: Visual Geometry Grounded Transformer},
  author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2025}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

Depth-Anything-3：从任何视角恢复视觉空间

2 个月前

HunyuanWorld-Mirror：3D 世界生成模型

3 个月前

DiffVox：声音区分效果模型

3 个月前

Ovis-Image：高质量图像生成模型

2 个月前

SAM3：视觉分割模型

2 个月前

FLUX.2-dev：图像生成与编辑模型

2 个月前

Z-Image-Turbo：高效 6B 参数图像生成模型

2 个月前

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

1 个月前

Krea-realtime-video：实时视频生成模型

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

VGGT：通用 3D 视觉模型

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VGGT：通用 3D 视觉模型

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

引用信息

相关教程

Depth-Anything-3：从任何视角恢复视觉空间

HunyuanWorld-Mirror：3D 世界生成模型

DiffVox：声音区分效果模型

Ovis-Image：高质量图像生成模型

SAM3：视觉分割模型

FLUX.2-dev：图像生成与编辑模型

Z-Image-Turbo：高效 6B 参数图像生成模型

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

Krea-realtime-video：实时视频生成模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VGGT：通用 3D 视觉模型

一、教程简介

二、项目示例

三、运行步骤

四、交流探讨

引用信息

相关教程

Depth-Anything-3：从任何视角恢复视觉空间

HunyuanWorld-Mirror：3D 世界生成模型

DiffVox：声音区分效果模型

Ovis-Image：高质量图像生成模型

SAM3：视觉分割模型

FLUX.2-dev：图像生成与编辑模型

Z-Image-Turbo：高效 6B 参数图像生成模型

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

Krea-realtime-video：实时视频生成模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

Depth-Anything-3：从任何视角恢复视觉空间

HunyuanWorld-Mirror：3D 世界生成模型

DiffVox：声音区分效果模型

Ovis-Image：高质量图像生成模型

SAM3：视觉分割模型

FLUX.2-dev：图像生成与编辑模型

Z-Image-Turbo：高效 6B 参数图像生成模型

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

Krea-realtime-video：实时视频生成模型

相关教程

Depth-Anything-3：从任何视角恢复视觉空间

HunyuanWorld-Mirror：3D 世界生成模型

DiffVox：声音区分效果模型

Ovis-Image：高质量图像生成模型

SAM3：视觉分割模型

FLUX.2-dev：图像生成与编辑模型

Z-Image-Turbo：高效 6B 参数图像生成模型

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

Krea-realtime-video：实时视频生成模型