大型多视图高斯模型

该教程为 LGM 的 Demo 实现。 LGM，即 Large Multi-View Gaussian Model（大型多视角高斯模型），是一种创新的框架，用于从文本提示或单视图图像生成高分辨率的 3D 模型。由来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者在论文 LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation 中提出。 LGM 框架通过多视角高斯特征作为 3D 表示，并使用非对称 U-Net 作为骨干网络，实现了高保真度和高效的 3D 模型生成。该方法能够在 5 秒内生成 3D 对象，并将训练分辨率提升至 512，从而实现高分辨率的 3D 内容生成。

HyperAI

运行此教程在 Discord 上讨论

日期

2 年前

标签

论文 URL

许可证

MIT

GitHub

3DTopia/LGM

大型多视图高斯模型

效果展示

运行步骤

1. 克隆教程容器并成功启动后，按照下图指引进入操作页面：

2. 上传图片/输入提示词/两者混合输入得到生成 3D 展示效果：

交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Command Palette

LGM 大型多视角高斯模型生成 Demo

大型多视图高斯模型

效果展示

运行步骤

交流探讨

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LGM 大型多视角高斯模型生成 Demo

大型多视图高斯模型

效果展示

运行步骤

交流探讨

相关笔记本

MarkItDown 微软开源的文档转换工具

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

HunyuanOCR：腾讯混元端到端 OCR

MAGE：单克隆抗体基因生成器

SoulX-Podcast 面向多方言的播客级长文本语音生成

一键部署 Qwen-Image-Lightning

GLM-ASR-Nano 智谱语音识别

JarvisArt-Preview 智能照片修饰代理

腾讯混元 HunyuanVideo-Foley

vLLM + Open WebUI 部署 Apriel-1.5-15b-Thinker

Long-VITA：百万 Token 多模态理解 Demo

Fara-7B：高效的网页智能体模型

Nemotron-Speech-Streaming-ASR：自动语音识别 Demo

TRELLIS.2 3D 生成 Demo

DiagGym 诊断智能体

Qwen3-TTS：高质量可控多语言语音合成 Demo

VibeVoice-ASR：多功能端到端语音识别 Demo

ACE-Step 1.5：音乐生成 Demo

用 AI 构建 AI

HyperAI Newsletters

Command Palette

LGM 大型多视角高斯模型生成 Demo

大型多视图高斯模型

效果展示

运行步骤

交流探讨

相关笔记本

MarkItDown 微软开源的文档转换工具

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

HunyuanOCR：腾讯混元端到端 OCR

MAGE：单克隆抗体基因生成器

SoulX-Podcast 面向多方言的播客级长文本语音生成

一键部署 Qwen-Image-Lightning

GLM-ASR-Nano 智谱语音识别

JarvisArt-Preview 智能照片修饰代理

腾讯混元 HunyuanVideo-Foley

vLLM + Open WebUI 部署 Apriel-1.5-15b-Thinker

Long-VITA：百万 Token 多模态理解 Demo

Fara-7B：高效的网页智能体模型

Nemotron-Speech-Streaming-ASR：自动语音识别 Demo

TRELLIS.2 3D 生成 Demo

DiagGym 诊断智能体

Qwen3-TTS：高质量可控多语言语音合成 Demo

VibeVoice-ASR：多功能端到端语音识别 Demo

ACE-Step 1.5：音乐生成 Demo

用 AI 构建 AI

HyperAI Newsletters

相关笔记本

MarkItDown 微软开源的文档转换工具

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

HunyuanOCR：腾讯混元端到端 OCR

MAGE：单克隆抗体基因生成器

SoulX-Podcast 面向多方言的播客级长文本语音生成

一键部署 Qwen-Image-Lightning

GLM-ASR-Nano 智谱语音识别

JarvisArt-Preview 智能照片修饰代理

腾讯混元 HunyuanVideo-Foley

vLLM + Open WebUI 部署 Apriel-1.5-15b-Thinker

Long-VITA：百万 Token 多模态理解 Demo