HyperAI

运行此教程在 Discord 上讨论

日期

2 个月前

大小

1.98 GB

标签

深度估计

许可证

Apache 2.0

GitHub

ByteDance-Seed/Depth-Anything-3

论文 URL

2511.10647

一、教程简介

Depth-Anything-3（DA3）是由 ByteDance-Seed 团队于 2025 年 11 月发布的突破性视觉几何模型，相关论文成果为 Depth Anything 3: Recovering the Visual Space from Any Views 。

该模型以「极简建模」理念革新视觉几何任务：仅采用单一普通 Transformer（如 vanilla DINO 编码器）作为骨干网络，通过「深度射线表示」替代复杂多任务学习，即可从任意视觉输入（已知/未知相机姿态均可）中预测空间一致的几何结构。其性能显著超越前代模型 DA2（单目深度估计）与同类方案 VGGT（多视图深度/姿态估计），所有模型均基于公开学术数据集训练，兼顾精度与可复现性。

核心特性：

多任务合一：单一模型支持单目深度估计、多视图深度融合、相机姿态估计、 3D 高斯生成等任务
高精度输出：在 HiRoom 数据集单目深度精度达 94.6%，ETH3D 重建精度超越 VGGT 等模型
多模型适配：提供 Main（全能）、 Metric（度量深度）、 Monocular（单目专用）及 Nested（嵌套融合）系列模型
灵活导出：支持 GLB 、 NPZ 、 PLY 、 3DGS 视频等格式，无缝对接下游 3D 工具（如 Blender）

本教程使用 Gradio 部署 DA3 核心模型，算力资源采用「RTX_5090」，可满配运行 3D 高斯生成（高分辨率）、多视图 3D 重建等重型任务，无显存/内存瓶颈。

二、效果展示

Depth-Anything-3 在核心任务上表现优异：

单目深度估计：从单张 RGB 图像生成高精度深度图，还原场景空间层次
多视图深度融合：基于多张同场景图像生成一致深度场，支撑高质量 3D 重建
相机姿态估计：精准预测相机内外参（外参 [N,3,4] 、内参 [N,3,3]），适配多视角协同任务
3D 高斯生成：直接输出高保真 3D 高斯模型，支持新颖视图合成（帧率 ≥30 fps）
度量深度输出：Nested 系列模型可生成真实尺度深度，满足测绘、室内设计等场景需求

三、运行步骤

1. 启动容器

启动容器后点击 API 地址即可进入 Web 界面

2. 开始使用

若显示「Bad Gateway」, 这表示模型正在初始化，由于模型较大，请等待 2-3 分钟后刷新页面。

参数说明

采样帧率设置
- Sampling FPS (Frames Per Second)：控制视频采样的每秒帧数。
图像处理与 3D 推理设置
- Image Processing Method：选择图像处理模式，适配更多图像数量。
- Infer 3D Gaussian Splatting：启用 3D 高斯溅射推理，生成 3D 模型需额外处理时间。
渲染轨迹与视频质量设置
- Rendering trajectory for 3DGS viewpoints：选择 3DGS 视角的渲染轨迹类型。
- Video quality for 3DGS rendered outputs：控制 3DGS 渲染输出的视频质量。
可视化选项
- Show Camera：在 3D 视图中显示相机轨迹。
- Filter Black Background：过滤点云中的黑色背景区域。
- Filter White Background：过滤点云中的白色背景区域。
- Filter Percentage：控制点云过滤强度。
- Max Points (K points)：设置导出 GLB 格式 3D 模型的最大点数。

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

本项目引用信息如下：

@article{depthanything3,
  title={Depth Anything 3: Recovering the visual space from any views},
  author={Haotong Lin and Sili Chen and Jun Hao Liew and Donny Y. Chen and Zhenyu Li and Guang Shi and Jiashi Feng and Bingyi Kang},
  journal={arXiv preprint arXiv:2511.10647},
  year={2025}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

2 个月前

大小

1.98 GB

标签

深度估计

许可证

Apache 2.0

GitHub

ByteDance-Seed/Depth-Anything-3

论文 URL

2511.10647

一、教程简介

Depth-Anything-3（DA3）是由 ByteDance-Seed 团队于 2025 年 11 月发布的突破性视觉几何模型，相关论文成果为 Depth Anything 3: Recovering the Visual Space from Any Views 。

核心特性：

多任务合一：单一模型支持单目深度估计、多视图深度融合、相机姿态估计、 3D 高斯生成等任务
高精度输出：在 HiRoom 数据集单目深度精度达 94.6%，ETH3D 重建精度超越 VGGT 等模型
多模型适配：提供 Main（全能）、 Metric（度量深度）、 Monocular（单目专用）及 Nested（嵌套融合）系列模型
灵活导出：支持 GLB 、 NPZ 、 PLY 、 3DGS 视频等格式，无缝对接下游 3D 工具（如 Blender）

本教程使用 Gradio 部署 DA3 核心模型，算力资源采用「RTX_5090」，可满配运行 3D 高斯生成（高分辨率）、多视图 3D 重建等重型任务，无显存/内存瓶颈。

二、效果展示

Depth-Anything-3 在核心任务上表现优异：

单目深度估计：从单张 RGB 图像生成高精度深度图，还原场景空间层次
多视图深度融合：基于多张同场景图像生成一致深度场，支撑高质量 3D 重建
相机姿态估计：精准预测相机内外参（外参 [N,3,4] 、内参 [N,3,3]），适配多视角协同任务
3D 高斯生成：直接输出高保真 3D 高斯模型，支持新颖视图合成（帧率 ≥30 fps）
度量深度输出：Nested 系列模型可生成真实尺度深度，满足测绘、室内设计等场景需求

三、运行步骤

1. 启动容器

启动容器后点击 API 地址即可进入 Web 界面

2. 开始使用

若显示「Bad Gateway」, 这表示模型正在初始化，由于模型较大，请等待 2-3 分钟后刷新页面。

参数说明

采样帧率设置
- Sampling FPS (Frames Per Second)：控制视频采样的每秒帧数。
图像处理与 3D 推理设置
- Image Processing Method：选择图像处理模式，适配更多图像数量。
- Infer 3D Gaussian Splatting：启用 3D 高斯溅射推理，生成 3D 模型需额外处理时间。
渲染轨迹与视频质量设置
- Rendering trajectory for 3DGS viewpoints：选择 3DGS 视角的渲染轨迹类型。
- Video quality for 3DGS rendered outputs：控制 3DGS 渲染输出的视频质量。
可视化选项
- Show Camera：在 3D 视图中显示相机轨迹。
- Filter Black Background：过滤点云中的黑色背景区域。
- Filter White Background：过滤点云中的白色背景区域。
- Filter Percentage：控制点云过滤强度。
- Max Points (K points)：设置导出 GLB 格式 3D 模型的最大点数。

四、交流探讨

引用信息

本项目引用信息如下：

@article{depthanything3,
  title={Depth Anything 3: Recovering the visual space from any views},
  author={Haotong Lin and Sili Chen and Jun Hao Liew and Donny Y. Chen and Zhenyu Li and Guang Shi and Jiashi Feng and Bingyi Kang},
  journal={arXiv preprint arXiv:2511.10647},
  year={2025}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

HunyuanWorld-Mirror：3D 世界生成模型

3 个月前

Krea-realtime-video：实时视频生成模型

3 个月前

SAM3：视觉分割模型

2 个月前

DiffVox：声音区分效果模型

3 个月前

PixelReasoner-RL：像素级视觉推理模型

3 个月前

FLUX.2-dev：图像生成与编辑模型

2 个月前

ROCKET-2：3D 游戏零样本迁移

2 个月前

LongCat-Video：美团开源的 AI 视频生成模型

3 个月前

OCRFlux-3B：智能文本识别工具包

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Depth-Anything-3：从任何视角恢复视觉空间

一、教程简介

二、效果展示

三、运行步骤

1. 启动容器

2. 开始使用

参数说明

四、交流探讨

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Depth-Anything-3：从任何视角恢复视觉空间

一、教程简介

二、效果展示

三、运行步骤

1. 启动容器

2. 开始使用

参数说明

四、交流探讨

引用信息

相关教程

HunyuanWorld-Mirror：3D 世界生成模型

Krea-realtime-video：实时视频生成模型

SAM3：视觉分割模型

DiffVox：声音区分效果模型

PixelReasoner-RL：像素级视觉推理模型

FLUX.2-dev：图像生成与编辑模型

ROCKET-2：3D 游戏零样本迁移

LongCat-Video：美团开源的 AI 视频生成模型

OCRFlux-3B：智能文本识别工具包

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Depth-Anything-3：从任何视角恢复视觉空间

一、教程简介

二、效果展示

三、运行步骤

1. 启动容器

2. 开始使用

参数说明

四、交流探讨

引用信息

相关教程

HunyuanWorld-Mirror：3D 世界生成模型

Krea-realtime-video：实时视频生成模型

SAM3：视觉分割模型

DiffVox：声音区分效果模型

PixelReasoner-RL：像素级视觉推理模型

FLUX.2-dev：图像生成与编辑模型

ROCKET-2：3D 游戏零样本迁移

LongCat-Video：美团开源的 AI 视频生成模型

OCRFlux-3B：智能文本识别工具包

用 AI 构建 AI

HyperAI Newsletters

相关教程

HunyuanWorld-Mirror：3D 世界生成模型

Krea-realtime-video：实时视频生成模型

SAM3：视觉分割模型

DiffVox：声音区分效果模型

PixelReasoner-RL：像素级视觉推理模型

FLUX.2-dev：图像生成与编辑模型

ROCKET-2：3D 游戏零样本迁移

LongCat-Video：美团开源的 AI 视频生成模型

OCRFlux-3B：智能文本识别工具包

相关教程

HunyuanWorld-Mirror：3D 世界生成模型

Krea-realtime-video：实时视频生成模型

SAM3：视觉分割模型

DiffVox：声音区分效果模型

PixelReasoner-RL：像素级视觉推理模型

FLUX.2-dev：图像生成与编辑模型

ROCKET-2：3D 游戏零样本迁移

LongCat-Video：美团开源的 AI 视频生成模型

OCRFlux-3B：智能文本识别工具包