概要

視覚コンテンツの理解と生成を両立できる統合型マルチモーダル大規模言語モデル（LLM）は、極めて大きな可能性を秘めている。しかし、既存のオープンソースモデルでは、これらの能力の間で性能のトレードオフが生じることが多い。本研究では、ハイブリッド画像トークナイザと適切に設計された学習プロトコルを組み合わせることで、このジレンマを著しく軽減するシンプルかつスケーラブルな統合フレームワーク「Manzano」を提案する。同一の共有視覚エンコーダーが、画像からテキストへの理解に向けた連続的埋め込みと、テキストから画像への生成に向けた離散的トークンを、共通の意味空間内で生成する軽量なアダプタを2つ駆動する。統合型の自己回帰型LLMは、テキストおよび画像トークンとして高レベルな意味情報を予測し、その後、補助的な拡散デコーダーが画像トークンを画素に変換する。このアーキテクチャと、理解と生成のデータを統合して学習するプロトコルにより、両能力のスケーラブルな共同学習が可能となる。Manzanoは統合型モデルの中で最先端の性能を達成し、特にテキストを豊富に含む評価タスクにおいて、専門モデルと競合可能な性能を示した。本研究の結果から、タスク間の衝突は最小限に抑えられ、モデルサイズの拡大に伴い一貫した性能向上が得られることを確認した。これは、ハイブリッドトークナイザの設計選択が適切であったことを裏付けている。

ソースPDF