3ヶ月前

Emu3：次トークン予測こそがすべてである

Xinlong Wang Xiaosong Zhang Zhengxiong Luo Quan Sun Yufeng Cui Jinsheng Wang Fan Zhang Yueze Wang Zhen Li Qiying Yu

要約

次トークン予測は人工汎用知能（AGI）への有望な道筋と見なされているが、多モーダルなタスクにおいては依然としてその性能が課題となっており、現状では拡散モデル（例：Stable Diffusion）や構成的アプローチ（例：CLIPとLLMの組み合わせ）が主導を占めている。本論文では、次トークン予測のみを用いて訓練された、最新の多モーダルモデル群であるEmu3を紹介する。画像、テキスト、動画を離散空間にトークン化することで、多モーダルなシーケンスの混合データ上から、単一のTransformerを完全に新規に訓練する。Emu3は、生成タスクおよび認識タスクの両方において、既存の代表的なタスク特化型モデルを上回る性能を発揮し、SDXLやLLaVA-1.6といった旗艦モデルをも凌駕する。同時に、拡散モデルや構成的アーキテクチャの導入を不要にした。また、動画シーケンスにおける次トークンの予測により、高精細な動画生成も可能である。本研究では、多モーダルモデルの設計を単一の焦点、すなわち「トークン」に集約することで、訓練および推論の両面でのスケーラビリティに大きな可能性を開く。本研究の結果は、次トークン予測が言語を越えた汎用的多モーダル知能の構築に向けた有望なアプローチであることを示している。本研究では、今後の研究を支援するため、主要な技術とモデルをオープンソースとして公開する。

コードリポジトリ

flagopen/flagscale

pytorch

GitHubで言及

baaivision/emu3

pytorch

GitHubで言及

ベンチマーク

ベンチマーク	方法論	指標
visual-question-answering-on-mm-vet	Emu3	GPT-4 score: 37.2

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette