HyperAI

Nous sommes fiers de présenter Qwen-Image, un modèle fondamental d’image de 20 milliards de paramètres (MMDiT), qui marque des progrès significatifs dans la génération de texte complexe et l’édition d’images précise. Pour tester la dernière version, rendez-vous sur Qwen Chat et sélectionnez « Génération d’image ». Ce modèle excelle sur plusieurs benchmarks publics : GenEval, DPG, OneIG-Bench pour la génération d’images, ainsi que GEdit, ImgEdit et GSO pour l’édition d’images. Il atteint des performances de pointe sur tous ces tests, démontrant une capacité exceptionnelle à la fois à générer des images et à les modifier avec précision. En particulier, sur des benchmarks spécialisés comme LongText-Bench, ChineseWord et TextCraft, Qwen-Image se distingue fortement dans le rendu de texte — notamment en chinois — surpassant largement les modèles existants. Cela positionne Qwen-Image comme un leader incontesté dans la génération d’images combinant une capacité générale étendue et une précision sans égal dans le traitement du texte. Dans un exemple de rendu chinois, le modèle reproduit fidèlement un décor inspiré du style d’animation de Miyazaki, avec une rue ancienne animée sous un soleil doré. Un disciple de l’école Xiangyao, vêtu d’une robe bleue, tient une carte portant « Alibaba Cloud ». À ses côtés, deux enfants le regardent avec étonnement. À gauche, une boutique affiche « Cloud Storage » avec des serveurs lumineux et deux gardes à l’entrée. À droite, deux autres établissements : l’un porte « Cloud Computing », avec une femme en qipao devant un écran scintillant, l’autre « Cloud Model », où une femme derrière un grand tonneau marqué « Qwen » verse une solution lumineuse de code. Tous les éléments textuels sont parfaitement intégrés, avec une profondeur de champ réaliste, des expressions naturelles et des poses cohérentes. Un autre exemple montre une double affiche chinoise classique dans une salle traditionnelle, avec une calligraphie élégante, un texte horizontal « Zhi Qi Tong Yi », et une peinture au centre représentant le Pavillon de Yueyang. Le modèle reproduit fidèlement les caractères, les effets de calligraphie et les détails visuels comme les porcelaines bleu et blanc. En anglais, Qwen-Image gère aussi des scènes complexes : une vitrine de librairie avec « New Arrivals This Week », une étiquette « Best-Selling Novels Here », un affiche « Author Meet And Greet » et quatre titres de livres correctement rendus. Dans un cas plus avancé, il génère une diapositive d’infographie élégante avec six modules distincts, chacun accompagné d’un icône, d’un titre et d’un texte explicatif, avec une mise en page symétrique et harmonieuse. Même des textes très petits sont bien traités : un papier jauni tenu par un homme en costume, portant un poème en anglais, est rendu avec une lisibilité parfaite malgré sa taille réduite. Pour des textes plus longs, comme un paragraphe manuscrit sur une vitre, le modèle intègre fidèlement un contenu bilingue (anglais et chinois) avec un passage fluide entre les langues. Grâce à ces capacités, Qwen-Image permet de créer directement des affiches (comme un film intitulé « Imagination Unleashed ») ou des présentations PowerPoint haut de gamme en chinois, avec des thèmes technologiques, des illustrations stylisées et une typographie soignée. Il intègre des éléments visuels complexes, des effets de lumière, des transitions de couleurs et une composition équilibrée, tout en respectant les normes de design professionnel. Au-delà du texte, Qwen-Image excelle dans la génération d’images généralistes, supportant des styles variés : photographiques, impressionnistes, anime, minimalistes, etc. Il permet aussi des éditions précises : transfert de style, ajout/suppression d’objets, modification de texte, ajustement de poses, amélioration de détails. En résumé, Qwen-Image vise à révolutionner la création de contenu visuel en abaissant les barrières techniques, en rendant accessible un outil puissant à tous les créateurs. Il s’inscrit dans une vision d’écosystème ouvert, transparent et durable, où la communauté joue un rôle actif dans son évolution. Experts du secteur soulignent que Qwen-Image représente une avancée majeure dans l’intégration du langage et de l’image, notamment grâce à sa capacité à gérer des textes complexes dans des contextes visuels réalistes — une fonctionnalité rare chez les modèles concurrents. Alibaba Cloud, déjà leader dans les modèles de langage, renforce sa position en IA visuelle grâce à cette innovation.

Qwen-Image révolutionne la génération d’images avec une maîtrise exceptionnelle du texte complexe en chinois et en anglais

Related Links