Sana wurde im Januar 2025 veröffentlicht und wird gemeinsam von NVIDIA, MIT und der Tsinghua-Universität geleitet. Sana ist ein Text-zu-Bild-Framework, das effizient Bilder mit einer Auflösung von bis zu 4096 × 4096 generieren kann. Sana kann hochauflösende, qualitativ hochwertige Bilder mit sehr hoher Geschwindigkeit synthetisieren und verfügt über leistungsstarke Funktionen zur Text-Bild-Ausrichtung. Die relevanten Papierergebnisse sindSANA: Effiziente hochauflösende Bildsynthese mit linearen Diffusionstransformatoren", wurde von ICLR 2025 angenommen.
Dieses Tutorial verwendet zur Demonstration das Modell Sana_1600M_1024px und die Rechenressourcen verwenden eine einzelne 4090-Karte.
2. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie etwa 1–2 Minuten und aktualisieren Sie die Seite.
2. Nutzen Sie die Demonstration
Zitationsinformationen
Dank an den Github-Benutzer SuperYang Für die Bereitstellung dieses Lernprogramms lauten die Projektreferenzinformationen wie folgt:
@misc{Sana2025,
title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han},
howpublished={\url{https://nvlabs.github.io/Sana/}},
note={GitHub Repository with Code, Model & Documentation},
year={2025}
}
Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓