Sana 高分辨率图像合成

一、教程简介
Sana 是 2025 年 1 月发布的,由 NVIDIA 、麻省理工学院、清华大学共同领导项目。 Sana 是一个文本到图像的框架,可以有效地生成高达 4096 × 4096 分辨率的图像。 Sana 可以以非常快的速度合成高分辨率、高质量的图像,具有很强的文本-图像对齐能力。相关论文成果为「SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers」,已被 ICLR 2025 接受。
本教程使用 Sana_1600M_1024px 模型进行演示,算力资源采用单卡 4090 。
二、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面
若显示「Bad Gateway」,这表示模型正在初始化,请等待约 1-2 分钟后刷新页面。
2. 使用演示



引用信息
感谢 Github 用户 SuperYang 对本教程的部署,本项目引用信息如下:
@misc{Sana2025,
title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han},
howpublished={\url{https://nvlabs.github.io/Sana/}},
note={GitHub Repository with Code, Model & Documentation},
year={2025}
}
交流讨论
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓
