HyperAIHyperAI
vor 12 Tagen

Technischer Bericht zu Qwen-Image

Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu
Technischer Bericht zu Qwen-Image
Abstract

Wir stellen Qwen-Image vor, ein Bildgenerations-Grundmodell der Qwen-Serie, das erhebliche Fortschritte bei der Darstellung komplexer Texte und präzisen Bildbearbeitung erzielt. Um die Herausforderungen der Darstellung komplexer Texte zu bewältigen, haben wir eine umfassende Datenpipeline entwickelt, die umfassende Datensammlung, Filterung, Annotation, Synthese und Ausbalancierung umfasst. Zudem setzen wir eine progressive Trainingsstrategie ein, die mit der Text-zu-Text-Darstellung ohne Text beginnt, von einfachen zu komplexeren Texteingaben fortschreitet und schließlich auf Beschreibungen auf Absatzebene skaliert. Dieser Ansatz des Curriculum-Lernens verbessert die nativen Fähigkeiten des Modells erheblich, Texte präzise darzustellen. Als Ergebnis zeigt Qwen-Image nicht nur herausragende Leistung bei alphabetischen Sprachen wie Englisch, sondern auch bemerkenswerte Fortschritte bei anspruchsvolleren logographischen Sprachen wie Chinesisch. Um die Konsistenz bei der Bildbearbeitung zu verbessern, führen wir ein verbessertes Multi-Task-Training verfahren ein, das neben den klassischen Aufgaben Text-zu-Bild (T2I) und Text-Bild-zu-Bild (TI2I) auch die Bild-zu-Bild-Rekonstruktion (I2I) integriert und somit die latenten Darstellungen zwischen Qwen2.5-VL und MMDiT effektiv ausrichtet. Zudem speisen wir das Originalbild separat in Qwen2.5-VL und den VAE-Encoder ein, um jeweils semantische und rekonstruktive Darstellungen zu erhalten. Diese Dual-Encoding-Mechanismus ermöglicht es dem Bearbeitungsmodul, ein Gleichgewicht zwischen der Erhaltung der semantischen Kohärenz und der Aufrechterhaltung der visuellen Qualität zu finden. Qwen-Image erreicht state-of-the-art-Leistung und demonstriert damit seine starke Kompetenz sowohl in der Bildgenerierung als auch in der Bildbearbeitung an mehreren Benchmarks.