OmniGen2: 多モーダル生成の探求と進化

本研究では、多様な生成タスクに統一的な解決策を提供するための汎用性とオープンソース性を持つ生成モデルOmniGen2を紹介します。これらのタスクには、テキストから画像への変換(text-to-image)、画像編集、およびコンテクスト内での生成が含まれます。OmniGen v1とは異なり、OmniGen2はテキストと画像モダリティのための2つの異なるデコーディングパスを持ち、共有されないパラメータと分離された画像トークナイザーを使用しています。この設計により、OmniGen2は既存のマルチモーダル理解モデルを基盤として利用し、VAE入力を再適応する必要なく、元のテキスト生成能力を維持することができます。OmniGen2の訓練を支援するために、我々は画像編集やコンテクスト内での生成データを含む包括的なデータ構築パイプラインを開発しました。さらに、画像生成タスク向けに反射メカニズムを導入し、OmniGen2に基づいた専門的な反射データセットを作成しました。比較的小さなパラメータサイズにもかかわらず、OmniGen2は複数のタスクベンチマークで競争力のある結果を達成しており、特にテキストから画像への変換(text-to-image)や画像編集において優れた性能を示しています。コンテクスト内での生成(subject-driven tasks)の評価のために、新たに「OmniContext」というベンチマークを導入しました。OmniGen2は一貫性という観点でオープンソースモデルの中でも最先端の性能を達成しています。今後この分野での研究を支援するために、我々はモデル、訓練コード、データセットおよびデータ構築パイプラインを公開します。プロジェクトページ: https://vectorspacelab.github.io/OmniGen2; GitHubリンク: https://github.com/VectorSpaceLab/OmniGen2