HyperAIHyperAI

Command Palette

Search for a command to run...

MAGVIT : Transformateur vidéo génératif masqué

Résumé

Nous introduisons le modèle MAGVIT (MAsked Generative VIdeo Transformer), conçu pour traiter diverses tâches de synthèse vidéo à l’aide d’un seul modèle. Nous proposons un tokenizer 3D pour quantifier une vidéo en tokens visuels spatio-temporels, ainsi qu’une méthode d’embedding pour la modélisation de tokens vidéo masqués, afin de favoriser l’apprentissage multi-tâches. Des expérimentations étendues démontrent la qualité, l’efficacité et la flexibilité de MAGVIT. Nos résultats montrent que : (i) MAGVIT se distingue favorablement des approches de pointe et établit le meilleur score publié en FVD sur trois benchmarks de génération vidéo, y compris le défi difficile Kinetics-600 ; (ii) MAGVIT surpasser largement les méthodes existantes en temps d’inférence, avec une accélération de deux ordres de grandeur par rapport aux modèles à diffusion, et d’un facteur 60 par rapport aux modèles autoregressifs ; (iii) un seul modèle MAGVIT prend en charge dix tâches de génération diverses et généralise efficacement à des vidéos provenant de domaines visuels variés. Le code source et les modèles entraînés seront rendus publics à l’adresse suivante : https://magvit.cs.cmu.edu.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MAGVIT : Transformateur vidéo génératif masqué | Articles | HyperAI