HyperAIHyperAI

Command Palette

Search for a command to run...

Emu3.5: Native Multimodale Modelle sind Welten-Lerner

Zusammenfassung

Wir stellen Emu3.5 vor, ein großskaliges multimodales Weltmodell, das natively die nächste Zustandsentwicklung in visuellen und sprachlichen Eingaben vorhersagt. Emu3.5 wird end-to-end mit einer einheitlichen Zielsetzung zur Vorhersage des nächsten Tokens auf einer Korpus-Text- und Bild-Datenbank vortrainiert, die über 10 Billionen Tokens umfasst und hauptsächlich aus aufeinanderfolgenden Bildern und Transkripten von Internet-Videos stammt. Das Modell verarbeitet natürlicherweise abwechselnde visuelle und sprachliche Eingaben und generiert gleichfalls abwechselnde visuelle und sprachliche Ausgaben. Emu3.5 wird zusätzlich mit großflächigem Verstärkungslernen nachtrainiert, um die multimodale Schlussfolgerungsfähigkeit und Generierung zu verbessern. Zur Steigerung der Inference-Effizienz schlagen wir Discrete Diffusion Adaptation (DiDA) vor, das die tokenweise Dekodierung in eine bidirektionale parallele Vorhersage umwandelt und die Inference-Geschwindigkeit pro Bild um etwa 20-fach beschleunigt, ohne die Leistung zu beeinträchtigen. Emu3.5 zeigt starke native multimodale Fähigkeiten, darunter die Generierung von langen Horizonten in visuell-sprachlichen Sequenzen, die beliebige-zu-Bild-Generierung (X2I) und die Erzeugung komplexer, textreicher Bilder. Zudem verfügt es über verallgemeinerbare Fähigkeiten im Weltmodellieren, was eine räumlich-zeitlich konsistente Exploration der Welt und offene, körpergebundene Manipulation in unterschiedlichen Szenarien und Aufgaben ermöglicht. Im Vergleich erreicht Emu3.5 eine Leistung, die der von Gemini 2.5 Flash Image (Nano Banana) bei Bildgenerierung und -bearbeitung nahekommt, und erzielt zudem überlegene Ergebnisse bei einer Reihe von abwechselnden Generierungsaufgaben. Wir stellen Emu3.5 unter https://github.com/baaivision/Emu3.5 als Open Source zur Verfügung, um die Forschung der Gemeinschaft zu unterstützen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Emu3.5: Native Multimodale Modelle sind Welten-Lerner | Paper | HyperAI