HyperAIHyperAI

Command Palette

Search for a command to run...

Emu3.5 : les modèles multimodaux natifs sont des apprenants du monde

Résumé

Nous présentons Emu3.5, un grand modèle multimodal du monde, capable de prédire nativement l’état suivant à la fois en vision et en langage. Emu3.5 est pré-entraîné de bout en bout, selon une objectif unifié de prédiction du prochain jeton, sur un corpus de données intercalées vision-langage contenant plus de 10 billions de tokens, principalement extraits de séquences d’images et de transcriptions provenant de vidéos issues d’internet. Le modèle accepte naturellement des entrées intercalées vision-langage et produit des sorties intercalées vision-langage. Emu3.5 est par la suite post-entraîné à grande échelle par apprentissage par renforcement afin d’améliorer sa capacité de raisonnement et de génération multimodale. Pour améliorer l’efficacité de l’inférence, nous proposons une méthode appelée Adaptation par Diffusion Discrète (DiDA), qui transforme le décodage token par token en une prédiction parallèle bidirectionnelle, accélérant ainsi l’inférence par image d’environ 20 fois sans compromettre la performance. Emu3.5 démontre des capacités multimodales nativement fortes, incluant la génération vision-langage à long terme, la génération de type n’importe quoi vers image (X2I) et la génération d’images complexes riches en texte. Il possède également des capacités généralisables de modélisation du monde, permettant une exploration cohérente dans l’espace-temps du monde et une manipulation incarnée dans un environnement ouvert, sur une large variété de scénarios et de tâches. En comparaison, Emu3.5 atteint des performances comparables à celles de Gemini 2.5 Flash Image (Nano Banana) sur les tâches de génération et d’édition d’images, tout en offrant des résultats supérieurs sur une série de tâches de génération intercalées. Nous mettons Emu3.5 à disposition sous licence open source à l’adresse suivante : https://github.com/baaivision/Emu3.5, afin de soutenir la recherche communautaire.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp