Technischer Bericht zu Qwen-Image

Wir stellen Qwen-Image vor, ein Bildgenerations-Grundmodell der Qwen-Serie, das erhebliche Fortschritte bei der Darstellung komplexer Texte und präzisen Bildbearbeitung erzielt. Um die Herausforderungen der Darstellung komplexer Texte zu bewältigen, haben wir eine umfassende Datenpipeline entwickelt, die umfassende Datensammlung, Filterung, Annotation, Synthese und Ausbalancierung umfasst. Zudem setzen wir eine progressive Trainingsstrategie ein, die mit der Text-zu-Text-Darstellung ohne Text beginnt, von einfachen zu komplexeren Texteingaben fortschreitet und schließlich auf Beschreibungen auf Absatzebene skaliert. Dieser Ansatz des Curriculum-Lernens verbessert die nativen Fähigkeiten des Modells erheblich, Texte präzise darzustellen. Als Ergebnis zeigt Qwen-Image nicht nur herausragende Leistung bei alphabetischen Sprachen wie Englisch, sondern auch bemerkenswerte Fortschritte bei anspruchsvolleren logographischen Sprachen wie Chinesisch. Um die Konsistenz bei der Bildbearbeitung zu verbessern, führen wir ein verbessertes Multi-Task-Training verfahren ein, das neben den klassischen Aufgaben Text-zu-Bild (T2I) und Text-Bild-zu-Bild (TI2I) auch die Bild-zu-Bild-Rekonstruktion (I2I) integriert und somit die latenten Darstellungen zwischen Qwen2.5-VL und MMDiT effektiv ausrichtet. Zudem speisen wir das Originalbild separat in Qwen2.5-VL und den VAE-Encoder ein, um jeweils semantische und rekonstruktive Darstellungen zu erhalten. Diese Dual-Encoding-Mechanismus ermöglicht es dem Bearbeitungsmodul, ein Gleichgewicht zwischen der Erhaltung der semantischen Kohärenz und der Aufrechterhaltung der visuellen Qualität zu finden. Qwen-Image erreicht state-of-the-art-Leistung und demonstriert damit seine starke Kompetenz sowohl in der Bildgenerierung als auch in der Bildbearbeitung an mehreren Benchmarks.