HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 mois

Emu3 : Prédire le prochain jeton, c'est tout ce dont vous avez besoin

Emu3 : Prédire le prochain jeton, c'est tout ce dont vous avez besoin

Résumé

Bien que la prédiction du prochain jeton soit considérée comme une voie prometteuse vers l’intelligence artificielle générale, elle peine à s’imposer dans les tâches multimodales, dominées depuis longtemps par les modèles de diffusion (par exemple, Stable Diffusion) et les approches composites (par exemple, CLIP combiné à des LLM). Dans ce papier, nous introduisons Emu3, une nouvelle suite de modèles multimodaux d’avant-garde entraînés exclusivement par prédiction du prochain jeton. En quantifiant les images, le texte et les vidéos dans un espace discret, nous entraînons un unique modèle transformer depuis le début sur un mélange de séquences multimodales. Emu3 surpasse plusieurs modèles spécialisés bien établis dans des tâches de génération et de perception, dépassant même des modèles phares tels que SDXL et LLaVA-1.6, tout en éliminant la nécessité d’architectures de diffusion ou composites. Emu3 est également capable de générer des vidéos de haute fidélité en prédisant le prochain jeton dans une séquence vidéo. En simplifiant les conceptions complexes de modèles multimodaux, nous nous concentrons sur un principe unifié : les jetons, ouvrant ainsi un grand potentiel d’extension à la fois pendant l’entraînement et l’inférence. Nos résultats démontrent que la prédiction du prochain jeton constitue une voie prometteuse pour construire une intelligence multimodale générale au-delà du langage. Nous mettons à disposition, sous licence open source, des techniques et modèles clés afin de soutenir des recherches ultérieures dans cette direction.

Dépôts de code

flagopen/flagscale
pytorch
Mentionné dans GitHub
baaivision/emu3
pytorch
Mentionné dans GitHub

Benchmarks

BenchmarkMéthodologieMétriques
visual-question-answering-on-mm-vetEmu3
GPT-4 score: 37.2

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Emu3 : Prédire le prochain jeton, c'est tout ce dont vous avez besoin | Articles de recherche | HyperAI