Qwen-Imageが実現する本格的な中英テキストレンダリングと精密画像編集の新基盤
通義千問(Qwen)チームは、複雑なテキストの正確なレンダリングと精密な画像編集に特化した200億パラメータの画像基礎モデル「Qwen-Image」を正式リリースした。このモデルは、画像生成と編集の両面で最先端の性能を発揮し、特に中国語や英語を含む多言語テキストの高精度表現において顕著な進歩を遂げている。Qwen-Imageは、GenEval、DPG、OneIG-Benchといった複数の公開ベンチマークでトップレベルの成績を記録。特に、LongText-BenchやChineseWord、TextCraftといったテキストレンダリング専用のテストでは、既存モデルを大きく上回る精度を示しており、中国語のテキスト生成において特に優れた能力を持つことが確認された。 デモ例では、宮崎駿のアニメ風の古街シーンを再現。青衫の人物が「阿里云」と書かれたカードを手に立ち、店の看板に「云存储」「云计算」「云模型」といった中国語のテキストが正確に描かれており、深景効果やキャラクターの表情、ポーズまでリアルに再現されている。また、伝統的な対聯(対句)を描いた部屋のシーンでは、左書「義本生知人機同道善思新」、右書「通雲賦智乾坤啓數高志遠」、横書き「智啓通義」といった複雑な漢字書体も正確に表現。英語では、書店の窓ガラスに「New Arrivals This Week」といったテキストや、4冊の書籍タイトルを含む棚のラベルも正確に生成。さらに、複数の項目とアイコンを含むインフォグラフィック形式のスライドや、小さな紙に手書きされた詩を含むシーンでも、文字の内容・フォント・配置まで高精度で再現可能。 また、中英混合のテキストや、長文の手書き風テキスト(例:「QWEN」Tシャツの女性がガラスに「一、Qwen-Imageの技術路線…」と手書き)も自然に生成でき、言語の切り替えも自由に処理可能。これにより、ポスター、プレゼンテーション資料(PPT)など、実用的なビジュアルコンテンツの自動作成が可能。例えば、星空ブルーを基調とした企業向け高品質PPTでは、梅・蘭・竹・菊の四君子をテーマにした画像と、中国書体のキャプションを統一感あるレイアウトで配置。テキストと視覚表現の融合が、技術と文化的な美しさを両立している。 さらに、写実的、アニメ風、抽象的、ミニマリズムなど、多様なアートスタイルに対応し、スタイル変換、物体の追加・削除、テキスト編集、ポーズ調整など、多様な画像編集機能も搭載。非専門家でもプロレベルの編集が容易に実現可能。Qwen-Imageは、生成AIの普及とクリエイティブの民主化を推進する重要なツールとして期待されている。今後、コミュニティのフィードバックをもとに、よりオープンで持続可能な生成AIエコシステムの構築を目指す。