Command Palette
Search for a command to run...
Emu3 : Prédire le prochain jeton, c'est tout ce dont vous avez besoin

Résumé
Bien que la prédiction du prochain jeton soit considérée comme une voie prometteuse vers l’intelligence artificielle générale, elle peine à s’imposer dans les tâches multimodales, dominées depuis longtemps par les modèles de diffusion (par exemple, Stable Diffusion) et les approches composites (par exemple, CLIP combiné à des LLM). Dans ce papier, nous introduisons Emu3, une nouvelle suite de modèles multimodaux d’avant-garde entraînés exclusivement par prédiction du prochain jeton. En quantifiant les images, le texte et les vidéos dans un espace discret, nous entraînons un unique modèle transformer depuis le début sur un mélange de séquences multimodales. Emu3 surpasse plusieurs modèles spécialisés bien établis dans des tâches de génération et de perception, dépassant même des modèles phares tels que SDXL et LLaVA-1.6, tout en éliminant la nécessité d’architectures de diffusion ou composites. Emu3 est également capable de générer des vidéos de haute fidélité en prédisant le prochain jeton dans une séquence vidéo. En simplifiant les conceptions complexes de modèles multimodaux, nous nous concentrons sur un principe unifié : les jetons, ouvrant ainsi un grand potentiel d’extension à la fois pendant l’entraînement et l’inférence. Nos résultats démontrent que la prédiction du prochain jeton constitue une voie prometteuse pour construire une intelligence multimodale générale au-delà du langage. Nous mettons à disposition, sous licence open source, des techniques et modèles clés afin de soutenir des recherches ultérieures dans cette direction.
Dépôts de code
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| visual-question-answering-on-mm-vet | Emu3 | GPT-4 score: 37.2 |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.