HyperAIHyperAI

Command Palette

Search for a command to run...

Console
5日前

EMMA:統一アーキテクチャを用いた効率的なマルチモーダル理解、生成、編集

Xin He Longhui Wei Jianbo Ouyang Lingxi Xie Qi Tian

EMMA:統一アーキテクチャを用いた効率的なマルチモーダル理解、生成、編集

要約

我々は、多モーダル理解、生成、編集を統合的に処理する効率的かつ統一的なアーキテクチャ「EMMA」を提案する。具体的には、EMMAは以下の4つの主要構成要素で構成される。1)32倍の圧縮比を有する効率的なオートエンコーダー。この構造により、生成に必要なトークン数を大幅に削減できる。また、画像データに対しても同一の圧縮比を適用することで、理解タスクと生成タスクの間の学習バランスを確保する。2)視覚的理解用トークンと生成用トークンの間で、従来のトークン単位の連結ではなく、チャネル単位の連結を採用することで、統一型アーキテクチャにおける視覚的トークン数をさらに削減する。3)タスク間の相互補完を可能にしつつ、各タスクの特異なモデリング要件を満たす「共有・分離型ネットワーク」。4)視覚的理解エンコーダーに採用された「エキスパートの混合(Mixture-of-Experts)」機構により、パラメータ増加を最小限に抑えつつ、知覚能力を著しく向上させる。広範な実験の結果、EMMA-4Bは、最先端の統一型多モーダルアプローチ(例:BAGEL-7B)と比較して、効率性と性能の両面で顕著な優位性を示すとともに、最近の多モーダル理解・生成専門モデル(例:Qwen3-VLやQwen-Image)と比較しても競争力のある結果を達成した。本研究では、EMMAが今後の統一型多モーダルアーキテクチャの発展に堅固な基盤を提供すると確信している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
EMMA:統一アーキテクチャを用いた効率的なマルチモーダル理解、生成、編集 | 論文 | HyperAI超神経