HyperAI

Synthèse D'images Haute Résolution Sana

GitHub-Sana
Étoiles
Article arXiv
Licence

1. Introduction au tutoriel

Sana est sorti en janvier 2025 et est dirigé conjointement par NVIDIA, le MIT et l'Université Tsinghua. Sana est un framework texte-image capable de générer efficacement des images jusqu'à une résolution de 4096 × 4096. Sana peut synthétiser des images haute résolution et de haute qualité à une vitesse très rapide, avec de fortes capacités d'alignement texte-image. Les résultats pertinents de l'article sontSANA : Synthèse d'images haute résolution efficace avec transformateurs de diffusion linéaires", a été accepté par l'ICLR 2025.

Ce tutoriel utilise le modèle Sana_1600M_1024px pour la démonstration et les ressources de calcul utilisent une seule carte 4090.

2. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Démonstration d'utilisation

Informations sur la citation

Merci à l'utilisateur Github SuperYang  Pour le déploiement de ce tutoriel, les informations de référence du projet sont les suivantes :

@misc{Sana2025,
  title={Sana: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformer},
  author={Enze Xie, Junsong Chen, Junyu Chen, Han Cai, Haotian Tang, Yujun Lin, Zhekai Zhang, Muyang Li, Ligeng Zhu, Yao Lu, Song Han},
  howpublished={\url{https://nvlabs.github.io/Sana/}},
  note={GitHub Repository with Code, Model & Documentation},
  year={2025}
}

Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓