vor 3 Monaten

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang

Zusammenfassung

Wir stellen Emu3.5 vor, ein großskaliges multimodales Weltmodell, das natively die nächste Zustandsentwicklung in visuellen und sprachlichen Eingaben vorhersagt. Emu3.5 wird end-to-end mit einer einheitlichen Zielsetzung zur Vorhersage des nächsten Tokens auf einer Korpus-Text- und Bild-Datenbank vortrainiert, die über 10 Billionen Tokens umfasst und hauptsächlich aus aufeinanderfolgenden Bildern und Transkripten von Internet-Videos stammt. Das Modell verarbeitet natürlicherweise abwechselnde visuelle und sprachliche Eingaben und generiert gleichfalls abwechselnde visuelle und sprachliche Ausgaben. Emu3.5 wird zusätzlich mit großflächigem Verstärkungslernen nachtrainiert, um die multimodale Schlussfolgerungsfähigkeit und Generierung zu verbessern. Zur Steigerung der Inference-Effizienz schlagen wir Discrete Diffusion Adaptation (DiDA) vor, das die tokenweise Dekodierung in eine bidirektionale parallele Vorhersage umwandelt und die Inference-Geschwindigkeit pro Bild um etwa 20-fach beschleunigt, ohne die Leistung zu beeinträchtigen. Emu3.5 zeigt starke native multimodale Fähigkeiten, darunter die Generierung von langen Horizonten in visuell-sprachlichen Sequenzen, die beliebige-zu-Bild-Generierung (X2I) und die Erzeugung komplexer, textreicher Bilder. Zudem verfügt es über verallgemeinerbare Fähigkeiten im Weltmodellieren, was eine räumlich-zeitlich konsistente Exploration der Welt und offene, körpergebundene Manipulation in unterschiedlichen Szenarien und Aufgaben ermöglicht. Im Vergleich erreicht Emu3.5 eine Leistung, die der von Gemini 2.5 Flash Image (Nano Banana) bei Bildgenerierung und -bearbeitung nahekommt, und erzielt zudem überlegene Ergebnisse bei einer Reihe von abwechselnden Generierungsaufgaben. Wir stellen Emu3.5 unter https://github.com/baaivision/Emu3.5 als Open Source zur Verfügung, um die Forschung der Gemeinschaft zu unterstützen.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Monaten

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Emu3.5: Native Multimodale Modelle sind Welten-Lerner

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang13 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Emu3.5: Native Multimodale Modelle sind Welten-Lerner

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang13 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Emu3.5: Native Multimodale Modelle sind Welten-Lerner

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang13 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang