HyperAIHyperAI

Command Palette

Search for a command to run...

PixArt-Σ : Entraînement Faible à Forte du Transformateur de Diffusion pour la Génération d'Images à partir de Texte en 4K

Junsong Chen Chongjian Ge Enze Xie Yue Wu Lewei Yao Xiaozhe Ren Zhongdao Wang Ping Luo Huchuan Lu Zhenguo Li

Résumé

Dans cet article, nous introduisons PixArt-Σ, un modèle de transformateur de diffusion (Diffusion Transformer, DiT) capable de générer directement des images à résolution 4K. PixArt-Σ marque une avancée significative par rapport à son prédécesseur, PixArt-α, en offrant des images d'une fidélité nettement supérieure et une meilleure alignement avec les prompts textuels. Une caractéristique clé de PixArt-Σ réside dans son efficacité d'entraînement. En s'appuyant sur la pré-formation fondamentale de PixArt-α, il évolue du modèle « faible » initial vers un modèle « fort » grâce à l'intégration de données de meilleure qualité, un processus que nous désignons sous le nom de « formation faible à forte » (weak-to-strong training). Les progrès apportés par PixArt-Σ s'inscrivent dans deux axes principaux : (1) Données d'entraînement de haute qualité : PixArt-Σ intègre des données d'images de qualité supérieure, associées à des légendes d'images plus précises et détaillées ; (2) Compression efficace des tokens : nous proposons un nouveau module d'attention au sein du cadre DiT, qui compresse à la fois les clés et les valeurs, améliorant ainsi considérablement l'efficacité et permettant la génération d'images à ultra-haute résolution. Grâce à ces améliorations, PixArt-Σ atteint une qualité d'image supérieure ainsi qu'une meilleure adéquation aux prompts utilisateurs, tout en disposant d'une taille de modèle nettement réduite (0,6 milliard de paramètres), comparée aux modèles existants de génération d'images à partir de texte tels que SDXL (2,6 milliards de paramètres) et SD Cascade (5,1 milliards de paramètres). En outre, la capacité de PixArt-Σ à générer des images 4K facilite la création de posters et d'arrière-plans haute résolution, renforçant de manière efficace la production de contenu visuel de haute qualité dans des secteurs tels que le cinéma et les jeux vidéo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp