il y a 3 mois

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang

Résumé

Nous présentons Emu3.5, un grand modèle multimodal du monde, capable de prédire nativement l’état suivant à la fois en vision et en langage. Emu3.5 est pré-entraîné de bout en bout, selon une objectif unifié de prédiction du prochain jeton, sur un corpus de données intercalées vision-langage contenant plus de 10 billions de tokens, principalement extraits de séquences d’images et de transcriptions provenant de vidéos issues d’internet. Le modèle accepte naturellement des entrées intercalées vision-langage et produit des sorties intercalées vision-langage. Emu3.5 est par la suite post-entraîné à grande échelle par apprentissage par renforcement afin d’améliorer sa capacité de raisonnement et de génération multimodale. Pour améliorer l’efficacité de l’inférence, nous proposons une méthode appelée Adaptation par Diffusion Discrète (DiDA), qui transforme le décodage token par token en une prédiction parallèle bidirectionnelle, accélérant ainsi l’inférence par image d’environ 20 fois sans compromettre la performance. Emu3.5 démontre des capacités multimodales nativement fortes, incluant la génération vision-langage à long terme, la génération de type n’importe quoi vers image (X2I) et la génération d’images complexes riches en texte. Il possède également des capacités généralisables de modélisation du monde, permettant une exploration cohérente dans l’espace-temps du monde et une manipulation incarnée dans un environnement ouvert, sur une large variété de scénarios et de tâches. En comparaison, Emu3.5 atteint des performances comparables à celles de Gemini 2.5 Flash Image (Nano Banana) sur les tâches de génération et d’édition d’images, tout en offrant des résultats supérieurs sur une série de tâches de génération intercalées. Nous mettons Emu3.5 à disposition sous licence open source à l’adresse suivante : https://github.com/baaivision/Emu3.5, afin de soutenir la recherche communautaire.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Vision Par Ordinateur

Tâche

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Vision Par Ordinateur

Tâche

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Emu3.5 : les modèles multimodaux natifs sont des apprenants du monde

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang13 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Emu3.5 : les modèles multimodaux natifs sont des apprenants du monde

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang13 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Emu3.5 : les modèles multimodaux natifs sont des apprenants du monde

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang13 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang

Yufeng Cui Honghao Chen Haoge Deng Xu Huang Xinghang Li Jirong Liu Yang Liu Zhuoyan Luo Jinsheng Wang Wenxuan Wang