Command Palette

Search for a command to run...

2日前

Emu3.5:ネイティブなマルチモーダルモデルは世界の学習者である

Emu3.5:ネイティブなマルチモーダルモデルは世界の学習者である

要約

本稿では、視覚と言語の両分野において次状態をネイティブに予測できる大規模な多モーダル世界モデル「Emu3.5」を紹介する。Emu3.5は、インターネット動画の連続フレームと字幕データを主な源とする、10兆トークン以上を含む視覚-言語交差データコアス上において、一貫した次トークン予測タスクを用いてエンド・トゥ・エンドで事前学習されている。このモデルは、視覚-言語の交差入力を自然に受け入れ、同様に交差する視覚-言語出力を生成する。さらに、大規模な強化学習を用いた後処理学習により、多モーダルな推論力と生成能力を強化している。推論効率の向上を図るため、本研究では「離散拡散適応(Discrete Diffusion Adaptation, DiDA)」を提案する。DiDAは、逐次的なトークン生成を双方向の並列予測に変換することで、1枚の画像に対する推論速度を約20倍に高速化しつつ、性能の低下を招かない。Emu3.5は、長時間にわたる視覚-言語生成、任意の入力から画像生成(X2I)への対応、および複雑なテキストを含む画像生成といった、強力なネイティブな多モーダル機能を備えている。また、汎用的な世界モデルとしての能力を有し、多様なシナリオやタスクにおいて、時空間的に一貫した世界探索とオープンワールドにおけるエンベデッド操作を可能にしている。比較実験の結果、Emu3.5は画像生成・編集タスクにおいてGemini 2.5 Flash Image(Nano Banana)と同等の性能を達成し、交差生成タスク群においてはさらに優れた結果を示した。本モデルのオープンソース版は、https://github.com/baaivision/Emu3.5 にて公開しており、コミュニティの研究活動を支援することを目的としている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています