一、教程简介

Sana 是 2025 年 1 月发布的，由 NVIDIA 、麻省理工学院、清华大学共同领导项目。 Sana 是一个文本到图像的框架，可以有效地生成高达 4096 × 4096 分辨率的图像。 Sana 可以以非常快的速度合成高分辨率、高质量的图像，具有很强的文本-图像对齐能力。相关论文成果为 SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers，已被 ICLR 2025 接受。

本教程使用 Sana_1600M_1024px 模型进行演示，算力资源采用单卡 4090 。

引用信息

感谢 Github 用户 SuperYang 对本教程的部署，本项目引用信息如下：

@misc{Sana2025, title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer}, author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han}, howpublished={\url{https://nvlabs.github.io/Sana/}}, note={GitHub Repository with Code, Model & Documentation}, year={2025} }

HyperAI

运行此教程在 Discord 上讨论

日期

9 个月前

大小

312.05 MB

标签

图像分类

图像处理

许可证

Other

GitHub

NVlabs/Sana

论文 URL

2410.10629

一、教程简介

本教程使用 Sana_1600M_1024px 模型进行演示，算力资源采用单卡 4090 。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，请等待约 1-2 分钟后刷新页面。

2. 使用演示

引用信息

感谢 Github 用户 SuperYang 对本教程的部署，本项目引用信息如下：

@misc{Sana2025,
  title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
  author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han},
  howpublished={\url{https://nvlabs.github.io/Sana/}},
  note={GitHub Repository with Code, Model & Documentation},
  year={2025}
}

交流讨论

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

9 个月前

大小

312.05 MB

标签

图像分类

图像处理

许可证

Other

GitHub

NVlabs/Sana

论文 URL

2410.10629

一、教程简介

本教程使用 Sana_1600M_1024px 模型进行演示，算力资源采用单卡 4090 。

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，请等待约 1-2 分钟后刷新页面。

2. 使用演示

引用信息

感谢 Github 用户 SuperYang 对本教程的部署，本项目引用信息如下：

@misc{Sana2025,
  title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
  author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han},
  howpublished={\url{https://nvlabs.github.io/Sana/}},
  note={GitHub Repository with Code, Model & Documentation},
  year={2025}
}

交流讨论

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

Z-Image-Turbo：高效 6B 参数图像生成模型

2 个月前

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

1 个月前

F5-E2 TTS 只需 3 秒克隆任何音色

2 个月前

VibeVoice-Realtime TTS：实时语音合成服务

2 个月前

LongCat-Video：美团开源的 AI 视频生成模型

3 个月前

SoulX-Podcast 面向多方言的播客级长文本语音生成

2 个月前

Depth-Anything-3：从任何视角恢复视觉空间

2 个月前

SAM3：视觉分割模型

2 个月前

Krea-realtime-video：实时视频生成模型

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Sana 高分辨率图像合成

一、教程简介

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用演示

引用信息

交流讨论

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Sana 高分辨率图像合成

一、教程简介

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用演示

引用信息

交流讨论

相关教程

Z-Image-Turbo：高效 6B 参数图像生成模型

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

F5-E2 TTS 只需 3 秒克隆任何音色

VibeVoice-Realtime TTS：实时语音合成服务

LongCat-Video：美团开源的 AI 视频生成模型

SoulX-Podcast 面向多方言的播客级长文本语音生成

Depth-Anything-3：从任何视角恢复视觉空间

SAM3：视觉分割模型

Krea-realtime-video：实时视频生成模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Sana 高分辨率图像合成

一、教程简介

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用演示

引用信息

交流讨论

相关教程

Z-Image-Turbo：高效 6B 参数图像生成模型

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

F5-E2 TTS 只需 3 秒克隆任何音色

VibeVoice-Realtime TTS：实时语音合成服务

LongCat-Video：美团开源的 AI 视频生成模型

SoulX-Podcast 面向多方言的播客级长文本语音生成

Depth-Anything-3：从任何视角恢复视觉空间

SAM3：视觉分割模型

Krea-realtime-video：实时视频生成模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

Z-Image-Turbo：高效 6B 参数图像生成模型

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

F5-E2 TTS 只需 3 秒克隆任何音色

VibeVoice-Realtime TTS：实时语音合成服务

LongCat-Video：美团开源的 AI 视频生成模型

SoulX-Podcast 面向多方言的播客级长文本语音生成

Depth-Anything-3：从任何视角恢复视觉空间

SAM3：视觉分割模型

Krea-realtime-video：实时视频生成模型

相关教程

Z-Image-Turbo：高效 6B 参数图像生成模型

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

F5-E2 TTS 只需 3 秒克隆任何音色

VibeVoice-Realtime TTS：实时语音合成服务

LongCat-Video：美团开源的 AI 视频生成模型

SoulX-Podcast 面向多方言的播客级长文本语音生成

Depth-Anything-3：从任何视角恢复视觉空间

SAM3：视觉分割模型

Krea-realtime-video：实时视频生成模型