il y a 3 mois

Emu3 : Prédire le prochain jeton, c'est tout ce dont vous avez besoin

Xinlong Wang Xiaosong Zhang Zhengxiong Luo Quan Sun Yufeng Cui Jinsheng Wang Fan Zhang Yueze Wang Zhen Li Qiying Yu

Résumé

Bien que la prédiction du prochain jeton soit considérée comme une voie prometteuse vers l’intelligence artificielle générale, elle peine à s’imposer dans les tâches multimodales, dominées depuis longtemps par les modèles de diffusion (par exemple, Stable Diffusion) et les approches composites (par exemple, CLIP combiné à des LLM). Dans ce papier, nous introduisons Emu3, une nouvelle suite de modèles multimodaux d’avant-garde entraînés exclusivement par prédiction du prochain jeton. En quantifiant les images, le texte et les vidéos dans un espace discret, nous entraînons un unique modèle transformer depuis le début sur un mélange de séquences multimodales. Emu3 surpasse plusieurs modèles spécialisés bien établis dans des tâches de génération et de perception, dépassant même des modèles phares tels que SDXL et LLaVA-1.6, tout en éliminant la nécessité d’architectures de diffusion ou composites. Emu3 est également capable de générer des vidéos de haute fidélité en prédisant le prochain jeton dans une séquence vidéo. En simplifiant les conceptions complexes de modèles multimodaux, nous nous concentrons sur un principe unifié : les jetons, ouvrant ainsi un grand potentiel d’extension à la fois pendant l’entraînement et l’inférence. Nos résultats démontrent que la prédiction du prochain jeton constitue une voie prometteuse pour construire une intelligence multimodale générale au-delà du langage. Nous mettons à disposition, sous licence open source, des techniques et modèles clés afin de soutenir des recherches ultérieures dans cette direction.

Dépôts de code

flagopen/flagscale

pytorch

Mentionné dans GitHub

baaivision/emu3

pytorch

Mentionné dans GitHub

Benchmarks

Benchmark	Méthodologie	Métriques
visual-question-answering-on-mm-vet	Emu3	GPT-4 score: 37.2

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette