2ヶ月前

概要

我々は、多モーダル理解、生成、編集を統合的に処理する効率的かつ統一的なアーキテクチャ「EMMA」を提案する。具体的には、EMMAは以下の4つの主要構成要素で構成される。1）32倍の圧縮比を有する効率的なオートエンコーダー。この構造により、生成に必要なトークン数を大幅に削減できる。また、画像データに対しても同一の圧縮比を適用することで、理解タスクと生成タスクの間の学習バランスを確保する。2）視覚的理解用トークンと生成用トークンの間で、従来のトークン単位の連結ではなく、チャネル単位の連結を採用することで、統一型アーキテクチャにおける視覚的トークン数をさらに削減する。3）タスク間の相互補完を可能にしつつ、各タスクの特異なモデリング要件を満たす「共有・分離型ネットワーク」。4）視覚的理解エンコーダーに採用された「エキスパートの混合（Mixture-of-Experts）」機構により、パラメータ増加を最小限に抑えつつ、知覚能力を著しく向上させる。広範な実験の結果、EMMA-4Bは、最先端の統一型多モーダルアプローチ（例：BAGEL-7B）と比較して、効率性と性能の両面で顕著な優位性を示すとともに、最近の多モーダル理解・生成専門モデル（例：Qwen3-VLやQwen-Image）と比較しても競争力のある結果を達成した。本研究では、EMMAが今後の統一型多モーダルアーキテクチャの発展に堅固な基盤を提供すると確信している。

ソースPDF