Command Palette
Search for a command to run...
Emu3: Next-Token-Vorhersage ist alles, was Sie brauchen

Abstract
Obwohl die Vorhersage des nächsten Tokens als vielversprechender Ansatz für künstliche allgemeine Intelligenz gilt, hat sie bisher Schwierigkeiten, sich bei multimodalen Aufgaben durchzusetzen, die nach wie vor von Diffusionsmodellen (z. B. Stable Diffusion) und kompositorischen Ansätzen (z. B. Kombination aus CLIP und LLMs) dominiert werden. In diesem Paper stellen wir Emu3 vor, eine neue Reihe von state-of-the-art multimodalen Modellen vor, die ausschließlich mittels Vorhersage des nächsten Tokens trainiert wurden. Durch die Diskretisierung von Bildern, Text und Videos in einen gemeinsamen diskreten Raum trainieren wir einen einzigen Transformer von Grund auf auf einer Mischung aus multimodalen Sequenzen. Emu3 übertrifft mehrere etablierte, auf spezifische Aufgaben zugeschnittene Modelle sowohl in Generierungs- als auch in Wahrnehmungsaufgaben und erreicht dabei Leistungen, die die Flaggschiffe wie SDXL und LLaVA-1.6 übertreffen, ohne auf Diffusions- oder kompositorische Architekturen angewiesen zu sein. Zudem ist Emu3 in der Lage, hochauflösende Videos zu generieren, indem sie den nächsten Token in einer Videosequenz vorhersagt. Wir vereinfachen komplexe multimodale Modellarchitekturen, indem wir uns auf einen einzigen zentralen Fokus konzentrieren: Tokens. Dadurch wird großes Potenzial für Skalierung sowohl während des Trainings als auch bei der Inferenz freigelegt. Unsere Ergebnisse zeigen, dass die Vorhersage des nächsten Tokens ein vielversprechender Weg ist, um allgemeine multimodale Intelligenz jenseits von Sprache zu entwickeln. Wir stellen Schlüsseltechniken und Modelle öffentlich zur Verfügung, um die weitere Forschung in dieser Richtung zu unterstützen.
Code-Repositories
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| visual-question-answering-on-mm-vet | Emu3 | GPT-4 score: 37.2 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.