Rapport technique Qwen-Image

Nous présentons Qwen-Image, un modèle fondamental de génération d’images issu de la série Qwen, qui marque des progrès significatifs dans la mise en forme complexe de texte et l’édition précise d’images. Pour relever les défis posés par la génération de texte complexe, nous avons conçu un pipeline de données complet comprenant la collecte à grande échelle, le filtrage, l’annotation, la synthèse et l’équilibrage des données. Par ailleurs, nous avons adopté une stratégie d’entraînement progressive, commençant par la génération de texte à partir de texte (non textuel vers texte), évoluant progressivement de données textuelles simples à des entrées complexes, puis s’étendant progressivement à des descriptions au niveau paragraphe. Cette approche d’apprentissage par curriculum améliore substantiellement les capacités intrinsèques du modèle en matière de rendu de texte. En conséquence, Qwen-Image se distingue non seulement par des performances exceptionnelles dans les langues alphabétiques telles que l’anglais, mais également par des progrès remarquables sur des langues logographiques plus exigeantes, comme le chinois. Pour améliorer la cohérence de l’édition d’images, nous introduisons un paradigme d’entraînement multi-tâches amélioré, qui intègre non seulement les tâches classiques de génération image à partir de texte (T2I) et de génération image à partir de texte-image (TI2I), mais aussi la reconstruction image à image (I2I), permettant ainsi une meilleure alignement des représentations latentes entre Qwen2.5-VL et MMDiT. En outre, nous alimentons séparément l’image d’origine dans Qwen2.5-VL et dans l’encodeur VAE afin d’obtenir respectivement des représentations sémantiques et reconstructives. Ce mécanisme d’encodage dual permet au module d’édition de concilier efficacement la préservation de la cohérence sémantique et le maintien de la fidélité visuelle. Qwen-Image atteint des performances de pointe, démontrant ainsi ses capacités fortes à la fois en génération d’images et en édition d’images sur plusieurs benchmarks.