Sana est sorti en janvier 2025 et est dirigé conjointement par NVIDIA, le MIT et l'Université Tsinghua. Sana est un framework texte-image capable de générer efficacement des images jusqu'à une résolution de 4096 × 4096. Sana peut synthétiser des images haute résolution et de haute qualité à une vitesse très rapide, avec de fortes capacités d'alignement texte-image. Les résultats pertinents de l'article sontSANA : Synthèse d'images haute résolution efficace avec transformateurs de diffusion linéaires", a été accepté par l'ICLR 2025.
Ce tutoriel utilise le modèle Sana_1600M_1024px pour la démonstration et les ressources de calcul utilisent une seule carte 4090.
2. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter environ 1 à 2 minutes et actualiser la page.
2. Démonstration d'utilisation
Informations sur la citation
Merci à l'utilisateur Github SuperYang Pour le déploiement de ce tutoriel, les informations de référence du projet sont les suivantes :
@misc{Sana2025,
title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han},
howpublished={\url{https://nvlabs.github.io/Sana/}},
note={GitHub Repository with Code, Model & Documentation},
year={2025}
}
Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓