Command Palette
Search for a command to run...

要約
次トークン予測は人工汎用知能(AGI)への有望な道筋と見なされているが、多モーダルなタスクにおいては依然としてその性能が課題となっており、現状では拡散モデル(例:Stable Diffusion)や構成的アプローチ(例:CLIPとLLMの組み合わせ)が主導を占めている。本論文では、次トークン予測のみを用いて訓練された、最新の多モーダルモデル群であるEmu3を紹介する。画像、テキスト、動画を離散空間にトークン化することで、多モーダルなシーケンスの混合データ上から、単一のTransformerを完全に新規に訓練する。Emu3は、生成タスクおよび認識タスクの両方において、既存の代表的なタスク特化型モデルを上回る性能を発揮し、SDXLやLLaVA-1.6といった旗艦モデルをも凌駕する。同時に、拡散モデルや構成的アーキテクチャの導入を不要にした。また、動画シーケンスにおける次トークンの予測により、高精細な動画生成も可能である。本研究では、多モーダルモデルの設計を単一の焦点、すなわち「トークン」に集約することで、訓練および推論の両面でのスケーラビリティに大きな可能性を開く。本研究の結果は、次トークン予測が言語を越えた汎用的多モーダル知能の構築に向けた有望なアプローチであることを示している。本研究では、今後の研究を支援するため、主要な技術とモデルをオープンソースとして公開する。
コードリポジトリ
flagopen/flagscale
pytorch
GitHubで言及
baaivision/emu3
pytorch
GitHubで言及
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| visual-question-answering-on-mm-vet | Emu3 | GPT-4 score: 37.2 |