Command Palette
Search for a command to run...
Emu3.5 : les modèles multimodaux natifs sont des apprenants du monde
Emu3.5 : les modèles multimodaux natifs sont des apprenants du monde
Résumé
Nous présentons Emu3.5, un grand modèle multimodal du monde, capable de prédire nativement l’état suivant à la fois en vision et en langage. Emu3.5 est pré-entraîné de bout en bout, selon une objectif unifié de prédiction du prochain jeton, sur un corpus de données intercalées vision-langage contenant plus de 10 billions de tokens, principalement extraits de séquences d’images et de transcriptions provenant de vidéos issues d’internet. Le modèle accepte naturellement des entrées intercalées vision-langage et produit des sorties intercalées vision-langage. Emu3.5 est par la suite post-entraîné à grande échelle par apprentissage par renforcement afin d’améliorer sa capacité de raisonnement et de génération multimodale. Pour améliorer l’efficacité de l’inférence, nous proposons une méthode appelée Adaptation par Diffusion Discrète (DiDA), qui transforme le décodage token par token en une prédiction parallèle bidirectionnelle, accélérant ainsi l’inférence par image d’environ 20 fois sans compromettre la performance. Emu3.5 démontre des capacités multimodales nativement fortes, incluant la génération vision-langage à long terme, la génération de type n’importe quoi vers image (X2I) et la génération d’images complexes riches en texte. Il possède également des capacités généralisables de modélisation du monde, permettant une exploration cohérente dans l’espace-temps du monde et une manipulation incarnée dans un environnement ouvert, sur une large variété de scénarios et de tâches. En comparaison, Emu3.5 atteint des performances comparables à celles de Gemini 2.5 Flash Image (Nano Banana) sur les tâches de génération et d’édition d’images, tout en offrant des résultats supérieurs sur une série de tâches de génération intercalées. Nous mettons Emu3.5 à disposition sous licence open source à l’adresse suivante : https://github.com/baaivision/Emu3.5, afin de soutenir la recherche communautaire.