HyperAIHyperAI

Command Palette

Search for a command to run...

Emu3:次トークン予測こそがすべてである

概要

次トークン予測は人工汎用知能(AGI)への有望な道筋と見なされているが、多モーダルなタスクにおいては依然としてその性能が課題となっており、現状では拡散モデル(例:Stable Diffusion)や構成的アプローチ(例:CLIPとLLMの組み合わせ)が主導を占めている。本論文では、次トークン予測のみを用いて訓練された、最新の多モーダルモデル群であるEmu3を紹介する。画像、テキスト、動画を離散空間にトークン化することで、多モーダルなシーケンスの混合データ上から、単一のTransformerを完全に新規に訓練する。Emu3は、生成タスクおよび認識タスクの両方において、既存の代表的なタスク特化型モデルを上回る性能を発揮し、SDXLやLLaVA-1.6といった旗艦モデルをも凌駕する。同時に、拡散モデルや構成的アーキテクチャの導入を不要にした。また、動画シーケンスにおける次トークンの予測により、高精細な動画生成も可能である。本研究では、多モーダルモデルの設計を単一の焦点、すなわち「トークン」に集約することで、訓練および推論の両面でのスケーラビリティに大きな可能性を開く。本研究の結果は、次トークン予測が言語を越えた汎用的多モーダル知能の構築に向けた有望なアプローチであることを示している。本研究では、今後の研究を支援するため、主要な技術とモデルをオープンソースとして公開する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Emu3:次トークン予測こそがすべてである | 記事 | HyperAI超神経