HyperAI超神経
15日前

OmniGen2: 多モーダル生成の探求と進化

Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
OmniGen2: 多モーダル生成の探求と進化
要約

本研究では、多様な生成タスクに統一的な解決策を提供するための汎用性とオープンソース性を持つ生成モデルOmniGen2を紹介します。これらのタスクには、テキストから画像への変換(text-to-image)、画像編集、およびコンテクスト内での生成が含まれます。OmniGen v1とは異なり、OmniGen2はテキストと画像モダリティのための2つの異なるデコーディングパスを持ち、共有されないパラメータと分離された画像トークナイザーを使用しています。この設計により、OmniGen2は既存のマルチモーダル理解モデルを基盤として利用し、VAE入力を再適応する必要なく、元のテキスト生成能力を維持することができます。OmniGen2の訓練を支援するために、我々は画像編集やコンテクスト内での生成データを含む包括的なデータ構築パイプラインを開発しました。さらに、画像生成タスク向けに反射メカニズムを導入し、OmniGen2に基づいた専門的な反射データセットを作成しました。比較的小さなパラメータサイズにもかかわらず、OmniGen2は複数のタスクベンチマークで競争力のある結果を達成しており、特にテキストから画像への変換(text-to-image)や画像編集において優れた性能を示しています。コンテクスト内での生成(subject-driven tasks)の評価のために、新たに「OmniContext」というベンチマークを導入しました。OmniGen2は一貫性という観点でオープンソースモデルの中でも最先端の性能を達成しています。今後この分野での研究を支援するために、我々はモデル、訓練コード、データセットおよびデータ構築パイプラインを公開します。プロジェクトページ: https://vectorspacelab.github.io/OmniGen2; GitHubリンク: https://github.com/VectorSpaceLab/OmniGen2