
要約
本報告では、30億パラメータの統合モデルであるOvis-U1を紹介します。このモデルは、マルチモーダル理解、テキストから画像への生成、および画像編集機能を統合しています。Ovisシリーズの基礎に基づいて開発されたOvis-U1は、拡散型の視覚デコーダと双方向トークンリファイナを組み合わせることで、GPT-4oなどの最先端モデルに匹敵する画像生成タスクを実現しています。一部の以前のモデルが生成タスクに冷凍したMLLM(多言語大規模言語モデル)を使用しているのとは異なり、Ovis-U1は言語モデルから始まる新しい統合訓練アプローチを利用しています。理解や生成タスクのみでの訓練と比較すると、統合訓練によりより高い性能が得られることを示しており、これらの2つのタスクを統合することによる向上が確認されています。Ovis-U1はOpenCompassマルチモーダル学術ベンチマークで69.6ポイントを獲得し、Ristretto-3BやSAIL-VL-1.5-2Bなどの最近の最先端モデルを上回っています。テキストから画像への生成においては、DPG-BenchとGenEvalベンチマークでそれぞれ83.72ポイントと0.89ポイントを記録しており優れた性能を発揮しています。また、画像編集ではImgEdit-BenchとGEdit-Bench-ENでそれぞれ4.00ポイントと6.42ポイントを達成しています。Ovis統合モデルシリーズの最初のバージョンとして、Ovis-U1はマルチモーダル理解、生成、および編集の境界を押し広げています。