Command Palette

Search for a command to run...

3ヶ月前

Emu3:次トークン予測こそがすべてである

Emu3:次トークン予測こそがすべてである

要約

次トークン予測は人工汎用知能(AGI)への有望な道筋と見なされているが、多モーダルなタスクにおいては依然としてその性能が課題となっており、現状では拡散モデル(例:Stable Diffusion)や構成的アプローチ(例:CLIPとLLMの組み合わせ)が主導を占めている。本論文では、次トークン予測のみを用いて訓練された、最新の多モーダルモデル群であるEmu3を紹介する。画像、テキスト、動画を離散空間にトークン化することで、多モーダルなシーケンスの混合データ上から、単一のTransformerを完全に新規に訓練する。Emu3は、生成タスクおよび認識タスクの両方において、既存の代表的なタスク特化型モデルを上回る性能を発揮し、SDXLやLLaVA-1.6といった旗艦モデルをも凌駕する。同時に、拡散モデルや構成的アーキテクチャの導入を不要にした。また、動画シーケンスにおける次トークンの予測により、高精細な動画生成も可能である。本研究では、多モーダルモデルの設計を単一の焦点、すなわち「トークン」に集約することで、訓練および推論の両面でのスケーラビリティに大きな可能性を開く。本研究の結果は、次トークン予測が言語を越えた汎用的多モーダル知能の構築に向けた有望なアプローチであることを示している。本研究では、今後の研究を支援するため、主要な技術とモデルをオープンソースとして公開する。

コードリポジトリ

flagopen/flagscale
pytorch
GitHubで言及
baaivision/emu3
pytorch
GitHubで言及

ベンチマーク

ベンチマーク方法論指標
visual-question-answering-on-mm-vetEmu3
GPT-4 score: 37.2

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Emu3:次トークン予測こそがすべてである | 論文 | HyperAI超神経