HyperAIHyperAI
il y a 8 jours

Le Modèle de Langage bat la Diffusion – Le Tokenizer est la Clé de la Génération Visuelle

Lijun Yu, José Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen, Yong Cheng, Vighnesh Birodkar, Agrim Gupta, Xiuye Gu, Alexander G. Hauptmann, Boqing Gong, Ming-Hsuan Yang, Irfan Essa, David A. Ross, Lu Jiang
Le Modèle de Langage bat la Diffusion – Le Tokenizer est la Clé de la Génération Visuelle
Résumé

Bien que les grands modèles linguistiques (LLM) soient les modèles dominants pour les tâches génératives en langage, ils ne se distinguent pas aussi bien que les modèles de diffusion dans la génération d’images et de vidéos. Pour exploiter efficacement les LLM dans la génération visuelle, un composant essentiel réside dans le tokeniseur visuel, qui cartographie les entrées dans l’espace pixel vers des tokens discrets adaptés à l’apprentissage des LLM. Dans cet article, nous introduisons MAGVIT-v2, un tokeniseur vidéo conçu pour produire des tokens concis et expressifs tant pour les vidéos que pour les images, en utilisant un vocabulaire commun de tokens. Grâce à ce nouveau tokeniseur, nous montrons que les LLM surpassent les modèles de diffusion sur des benchmarks standards de génération d’images et de vidéos, notamment ImageNet et Kinetics. En outre, nous démontrons que notre tokeniseur excelle sur deux autres tâches par rapport au précédent meilleur tokeniseur vidéo : (1) une compression vidéo comparable aux normes de prochaine génération (VCC), selon des évaluations humaines ; et (2) l’apprentissage de représentations efficaces pour les tâches de reconnaissance d’actions.

Le Modèle de Langage bat la Diffusion – Le Tokenizer est la Clé de la Génération Visuelle | Articles de recherche récents | HyperAI