HyperAIHyperAI
il y a 17 jours

PixArt-Σ : Entraînement Faible à Forte du Transformateur de Diffusion pour la Génération d'Images à partir de Texte en 4K

Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
PixArt-Σ : Entraînement Faible à Forte du Transformateur de Diffusion pour la Génération d'Images à partir de Texte en 4K
Résumé

Dans cet article, nous introduisons PixArt-Σ, un modèle de transformateur de diffusion (Diffusion Transformer, DiT) capable de générer directement des images à résolution 4K. PixArt-Σ marque une avancée significative par rapport à son prédécesseur, PixArt-α, en offrant des images d'une fidélité nettement supérieure et une meilleure alignement avec les prompts textuels. Une caractéristique clé de PixArt-Σ réside dans son efficacité d'entraînement. En s'appuyant sur la pré-formation fondamentale de PixArt-α, il évolue du modèle « faible » initial vers un modèle « fort » grâce à l'intégration de données de meilleure qualité, un processus que nous désignons sous le nom de « formation faible à forte » (weak-to-strong training). Les progrès apportés par PixArt-Σ s'inscrivent dans deux axes principaux : (1) Données d'entraînement de haute qualité : PixArt-Σ intègre des données d'images de qualité supérieure, associées à des légendes d'images plus précises et détaillées ; (2) Compression efficace des tokens : nous proposons un nouveau module d'attention au sein du cadre DiT, qui compresse à la fois les clés et les valeurs, améliorant ainsi considérablement l'efficacité et permettant la génération d'images à ultra-haute résolution. Grâce à ces améliorations, PixArt-Σ atteint une qualité d'image supérieure ainsi qu'une meilleure adéquation aux prompts utilisateurs, tout en disposant d'une taille de modèle nettement réduite (0,6 milliard de paramètres), comparée aux modèles existants de génération d'images à partir de texte tels que SDXL (2,6 milliards de paramètres) et SD Cascade (5,1 milliards de paramètres). En outre, la capacité de PixArt-Σ à générer des images 4K facilite la création de posters et d'arrière-plans haute résolution, renforçant de manière efficace la production de contenu visuel de haute qualité dans des secteurs tels que le cinéma et les jeux vidéo.

PixArt-Σ : Entraînement Faible à Forte du Transformateur de Diffusion pour la Génération d'Images à partir de Texte en 4K | Articles de recherche récents | HyperAI