OminiControl 多機能画像生成と制御

1. チュートリアルの概要
OminiControl は、シンガポール国立大学の XML ラボによって 2024 年 12 月にリリースされた、FLUX などの Diffusion Transformer モデルに適した、最小限ながら強力な汎用制御フレームワークです。 FLUX モデルを使用して任意の制御タスク (3D、マルチビュー、ジェスチャ ガイダンスなど) をカスタマイズすることで、独自の OminiControl モデルを作成できます。関連する論文の結果は以下の通りである。OminiControl: 拡散変圧器の最小限かつユニバーサルな制御”。
ユニバーサルコントロール🌐 : エージェント駆動制御と空間制御 (エッジガイドやインペインティング生成など) の両方をサポートする統合制御フレームワーク。
ミニマルなデザイン🚀 : 元のモデル構造を維持しながら制御信号を挿入します。基本モデルには、0.1% という追加パラメータのみが導入されています。
このチュートリアルは、OminiControl の一般的な制御フレームワークに基づいており、テーマ主導の画像生成と空間制御を実装します。コンピューティング パワー リソースには、単一のカード A6000 を使用します。
エフェクト例
1. テーマ主導型生成
デモ(左:条件付き画像、右:生成画像)




テキストプロンプトの単語
- ヒント1:アイテムのクローズアップ写真。木製のテーブルの上に置かれ、背景には暗い部屋があり、テレビがオンになっていて、画面には料理番組が流れています。そして、「Omini Control!」という文字が書かれています。
- ヒント2:映画風のショット。月面では、「Omini」という文字が書かれた旗を本体に掲げて、物体が月面を走行した。背景には前景を占める巨大な地球儀があります。
- ヒント3:バウハウス風の部屋では、花が入った花瓶の横にある光沢のあるガラスのテーブルの上に物が置かれています。午後の太陽の下で、ブラインドの影が壁に映っていました。
- ヒント4:このシャツを着てビーチの「オミニ」傘の下に座り、満面の笑みを浮かべ、背後にサーフボードを掲げている女性の様子が映っています。背景は夕焼けのオレンジ紫色の空です。
2. 空間アライメント制御
画像修復(左:元画像、中央:マスク画像、右:塗りつぶし結果)
- ヒント:モナ・リザは「Omini」という文字がプリントされた白い VR ヘッドセットを装着しています。

- ヒント:黄色い本の表紙には「OMINI」という文字が大きく印刷されており、下部には「for FLUX」という文字があります。

2. 操作手順
「モデル」が表示されない場合は、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってからページを更新してください。
1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. ウェブページに入ると、テーマ主導の生成(Subject)と空間制御(Spatial)を体験できます。
注意: 2 つのモデルを切り替えるには約 30 ~ 70 秒かかりますので、しばらくお待ちください。
テーマ主導型生成: ユーザーは、オブジェクトの画像と、そのオブジェクトが配置されている対象シーンのテキストによる説明を提供することで、テーマ主導の生成を完了できます。
スペースコントロール: 画像の復元やCannyなどの操作が含まれます。ユーザーは、オブジェクトの画像と、オブジェクトに対する変更のテキストによる説明を提供して、画像の空間制御を完了します。

テーマ主導型生成効果(被験者)

空間制御 - 画像復元効果(空間)
引用情報
GitHubユーザーに感謝 スーパーヤン このチュートリアルを作成するためのプロジェクト参照情報は次のとおりです。
@article{tan2024ominicontrol,
title={Ominicontrol: Minimal and universal control for diffusion transformer},
author={Tan, Zhenxiong and Liu, Songhua and Yang, Xingyi and Xue, Qiaochu and Wang, Xinchao},
journal={arXiv preprint arXiv:2411.15098},
volume={3},
year={2024}
}
交流とディスカッション
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。
