Xin He Longhui Wei Jianbo Ouyang Lingxi Xie Qi Tian

要約
我々は、多モーダル理解、生成、編集を統合的に処理する効率的かつ統一的なアーキテクチャ「EMMA」を提案する。具体的には、EMMAは以下の4つの主要構成要素で構成される。1)32倍の圧縮比を有する効率的なオートエンコーダー。この構造により、生成に必要なトークン数を大幅に削減できる。また、画像データに対しても同一の圧縮比を適用することで、理解タスクと生成タスクの間の学習バランスを確保する。2)視覚的理解用トークンと生成用トークンの間で、従来のトークン単位の連結ではなく、チャネル単位の連結を採用することで、統一型アーキテクチャにおける視覚的トークン数をさらに削減する。3)タスク間の相互補完を可能にしつつ、各タスクの特異なモデリング要件を満たす「共有・分離型ネットワーク」。4)視覚的理解エンコーダーに採用された「エキスパートの混合(Mixture-of-Experts)」機構により、パラメータ増加を最小限に抑えつつ、知覚能力を著しく向上させる。広範な実験の結果、EMMA-4Bは、最先端の統一型多モーダルアプローチ(例:BAGEL-7B)と比較して、効率性と性能の両面で顕著な優位性を示すとともに、最近の多モーダル理解・生成専門モデル(例:Qwen3-VLやQwen-Image)と比較しても競争力のある結果を達成した。本研究では、EMMAが今後の統一型多モーダルアーキテクチャの発展に堅固な基盤を提供すると確信している。