HyperAIHyperAI

Command Palette

Search for a command to run...

Le Modèle de Langage bat la Diffusion – Le Tokenizer est la Clé de la Génération Visuelle

Résumé

Bien que les grands modèles linguistiques (LLM) soient les modèles dominants pour les tâches génératives en langage, ils ne se distinguent pas aussi bien que les modèles de diffusion dans la génération d’images et de vidéos. Pour exploiter efficacement les LLM dans la génération visuelle, un composant essentiel réside dans le tokeniseur visuel, qui cartographie les entrées dans l’espace pixel vers des tokens discrets adaptés à l’apprentissage des LLM. Dans cet article, nous introduisons MAGVIT-v2, un tokeniseur vidéo conçu pour produire des tokens concis et expressifs tant pour les vidéos que pour les images, en utilisant un vocabulaire commun de tokens. Grâce à ce nouveau tokeniseur, nous montrons que les LLM surpassent les modèles de diffusion sur des benchmarks standards de génération d’images et de vidéos, notamment ImageNet et Kinetics. En outre, nous démontrons que notre tokeniseur excelle sur deux autres tâches par rapport au précédent meilleur tokeniseur vidéo : (1) une compression vidéo comparable aux normes de prochaine génération (VCC), selon des évaluations humaines ; et (2) l’apprentissage de représentations efficaces pour les tâches de reconnaissance d’actions.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp