HyperAIHyperAI
vor 17 Tagen

PixArt-Σ: Schwach-zu-Stark-Training eines Diffusions-Transformers für die 4K-Text-zu-Bild-Generierung

Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
PixArt-Σ: Schwach-zu-Stark-Training eines Diffusions-Transformers für die 4K-Text-zu-Bild-Generierung
Abstract

In diesem Paper stellen wir PixArt-Σ vor, ein Diffusion Transformer-Modell (DiT), das in der Lage ist, direkt Bilder mit 4K-Auflösung zu generieren. PixArt-Σ stellt einen erheblichen Fortschritt gegenüber seinem Vorgänger PixArt-α dar, indem er Bilder mit deutlich höherer Fidelität und verbesserter Übereinstimmung mit Textprompts liefert. Ein zentrales Merkmal von PixArt-Σ ist seine Trainings-Effizienz. Ausgehend von der grundlegenden Vortrainingsphase von PixArt-α entwickelt sich das Modell über einen Prozess, den wir „Weak-to-Strong Training“ nennen, von einem „schwächeren“ Ausgangsmodell zu einem „stärkeren“ Modell durch die Integration von hochwertigeren Daten. Die Fortschritte von PixArt-Σ sind zweifach: (1) Hochwertige Trainingsdaten: PixArt-Σ nutzt verbesserte Bilddaten mit präziseren und detaillierteren Bildbeschreibungen. (2) Effiziente Token-Kompression: Wir schlagen ein neuartiges Aufmerksamkeitsmodul innerhalb des DiT-Frameworks vor, das sowohl Schlüssel als auch Werte komprimiert und somit die Effizienz erheblich steigert sowie die Generierung von Ultra-Hochauflösungsbildern ermöglicht. Dank dieser Verbesserungen erreicht PixArt-Σ eine überlegene Bildqualität und eine bessere Anpassung an Benutzerprompts bei deutlich kleinerer Modellgröße (0,6 Milliarden Parameter), verglichen mit bestehenden textbasierten Diffusionsmodellen wie SDXL (2,6 Milliarden Parameter) und SD Cascade (5,1 Milliarden Parameter). Darüber hinaus ermöglicht PixArt-Σ die Erzeugung von 4K-Bildern, was die Produktion hochauflösender Poster und Hintergrundbilder effizient unterstützt und somit die Erstellung qualitativ hochwertiger visueller Inhalte in Branchen wie Film und Gaming erheblich fördert.

PixArt-Σ: Schwach-zu-Stark-Training eines Diffusions-Transformers für die 4K-Text-zu-Bild-Generierung | Neueste Forschungsarbeiten | HyperAI