HyperAI超神経

OmniGen2: 高度なマルチモーダル生成の探求

1. チュートリアルの概要

建てる

OmniGen2は、北京人工知能研究院(BAAI)が2025年6月16日にリリースしたオープンソースのマルチモーダル生成モデルです。テキストから画像への生成、画像編集、コンテキスト生成など、様々な生成タスクに対応する統合ソリューションを提供することを目的としています。OmniGen v1とは異なり、OmniGen2はテキストと画像モダリティそれぞれに独立した2つのデコードパスを設計し、非共有パラメータと個別の画像セグメンテーションを採用しています。この設計により、OmniGen2はVAE入力を再適応させることなく既存のマルチモーダル理解モデルを基盤とすることができ、従来のテキスト生成機能を維持できます。その核となる革新性は、デュアルパスアーキテクチャと自己反映メカニズムにあり、これは現在のオープンソースマルチモーダルモデルの新たなベンチマークとなっています。関連論文の結果は以下です。OmniGen2: 高度なマルチモーダル生成への探求”。

このチュートリアルのコンピューティング リソースでは、単一の RTX A6000 カードが使用されており、現在は英語のプロンプトの方が効果的です。

2. エフェクト表示

OmniGen2 の効果の例:

OmniGen2 画像編集機能のデモ
OmniGen2 コンテキスト生成機能のデモ

3. 操作手順

1. コンテナを起動します

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

最初の例は画像の説明、2 番目と 3 番目の例は viz 画像、残りの例は画像編集です。

具体的なパラメータ:

  • 高さ:高さ。
  • 幅: 幅。
  • テキストガイダンススケール: テキストガイダンススケール。
  • 画像ガイダンススケール: 画像ガイダンススケール。
  • CFG 範囲開始: 範囲の開始。
  • CFG 範囲終了: 範囲の終了。
  • スケジューラ: スケジューラ。
  • 推論手順: 推論手順。
  • プロンプトあたりの画像数: プロンプトあたりの画像数。
  • シード:種子。
  • max_input_image_side_length: 入力画像の最大サイド長。
  • max_pixels: 最大ピクセル数。

結果

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{wu2025omnigen2,
  title={OmniGen2: Exploration to Advanced Multimodal Generation},
  author={Chenyuan Wu and Pengfei Zheng and Ruiran Yan and Shitao Xiao and Xin Luo and Yueze Wang and Wanli Li and Xiyan Jiang and Yexin Liu and Junjie Zhou and Ze Liu and Ziyi Xia and Chaofan Li and Haoge Deng and Jiahao Wang and Kun Luo and Bo Zhang and Defu Lian and Xinlong Wang and Zhongyuan Wang and Tiejun Huang and Zheng Liu},
  journal={arXiv preprint arXiv:2506.18871},
  year={2025}
}