Qwen-Image: 高度なテキストレンダリング機能を備えた画像モデル

1. チュートリアルの概要

GitHubスター

Qwen-Imageは、アリババ同義千文チームが2025年8月に発表した高品質画像生成・編集のための大規模モデルです。このモデルはテキストレンダリング分野で画期的な進歩を遂げ、中国語と英語の両方で複数行の段落を高忠実度で出力し、複雑なシーンやミリメートルレベルのディテールを正確に復元する能力を備えています。Qwen-Imageは、マルチタスク協調学習パラダイムを用いて画像編集におけるピクセルレベルの一貫性を実現し、プロセス全体を通して被写体、光と影、質感のドリフトをゼロに抑えます。リアリズム、アニメーション、サイバーパンク、SF、ミニマリズム、レトロ、シュールレアリズム、水墨画など、数十種類のスタイルをワンクリックで生成でき、スタイルの転送、要素の追加と削除、ディテールの強調、テキストの再描画、姿勢のリセットなど、フルディメンションの微細操作をサポートします。関連論文の結果は「Qwen-Image 技術レポート”。

このチュートリアルでは、デュアルカード RTX A6000 リソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

パラメータの説明

  • 詳細設定:
    • 否定プロンプト: 否定プロンプト語は、画像に表示したくないコンテンツまたはスタイルを指定するために使用されます。
    • シード: ランダムシード。
    • シードのランダム化: シードを自動的にランダム化するかどうか。
    • 画像サイズ (比率): 出力画像の解像度比率を制御します。
    • ガイダンス スケール: 生成される画像の品質を制御するために使用されるガイダンス スケール。
    • 推論ステップ数: 生成される画像の詳細レベルを制御するために使用される推論ステップの数。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{qwen-image,
    title={Qwen-Image Technical Report}, 
    author={Qwen Team},
    journal={arXiv preprint},
    year={2025}
}