インコンテキスト編集: コマンド駆動型画像生成と編集

1. チュートリアルの概要
In-Context Editは、浙江大学とハーバード大学が2025年4月29日に発表した、命令ベースの画像編集のための効率的なフレームワークです。従来の方法と比較して、ICEditはトレーニング可能なパラメータがわずか1%(200M)で、トレーニングデータは0.1%(50k)しかありませんが、強力な一般化能力を示し、さまざまな編集タスクを処理できます。 Gemini や GPT4o などの商用モデルと比較すると、よりオープンソースで、コストが低く、高速かつ強力です。関連する論文の結果は以下の通りである。インコンテキスト編集:大規模拡散トランスフォーマーにおけるインコンテキスト生成による教育用画像編集の実現”。
このチュートリアルでは、リソースとして単一の RTX 4090 カードを使用します。公式に述べられている 9 秒で画像を生成するには、より高い構成のグラフィック カードが必要になります。このプロジェクトは現在、英語のテキスト説明のみをサポートしています。
このプロジェクトで使用されるモデル:
- ノーマルローラ
- FLUX.1-フィル-dev
2. プロジェクト例
他のビジネスモデルとの比較
3. 操作手順
1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります
「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。
2. 使用デモ
❗️重要な使用上のヒント:
- ガイダンススケール: これは、生成モデル内の条件付き入力 (テキストや画像など) が生成される結果に影響を与える度合いを制御するために使用されます。ガイダンス値を高くすると、生成される結果が入力条件に近くなりますが、値を低くするとランダム性が高まります。
- 推論ステップ数: モデルの反復回数または推論プロセスのステップ数を表し、モデルが結果を生成するために使用する最適化ステップの数を表します。通常、ステップ数が多いほど、より正確な結果が生成されますが、計算時間が長くなる可能性があります。
- シード: 生成プロセスのランダム性を制御するために使用される乱数シード。同じシード値では同じ結果が生成されます (他のパラメータが同じである場合)。これは、結果を再現する上で非常に重要です。



4. 議論
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報
Githubユーザーに感謝 スーパーヤン このチュートリアルの展開。このプロジェクトの引用情報は次のとおりです。
@misc{zhang2025ICEdit,
title={In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer},
author={Zechuan Zhang and Ji Xie and Yu Lu and Zongxin Yang and Yi Yang},
year={2025},
eprint={2504.20690},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.20690},
}