HyperAIHyperAI

Command Palette

Search for a command to run...

VideoGPT : Génération vidéo à l’aide de VQ-VAE et de Transformers

Wilson Yan Yunzhi Zhang Pieter Abbeel Aravind Srinivas

Résumé

Nous présentons VideoGPT : une architecture conceptuellement simple permettant d’étendre le modèle génératif basé sur la vraisemblance aux vidéos naturelles. VideoGPT utilise un VQ-VAE qui apprend des représentations latentes discrètes sous-échantillonnées d’une vidéo brute en exploitant des convolutions 3D et une attention axiale. Une architecture simple inspirée du GPT est ensuite employée pour modéliser de manière autoregressive les latents discrets à l’aide d’encodages de position spatio-temporels. Malgré sa formulation simple et sa facilité d’entraînement, notre architecture parvient à générer des échantillons compétitifs avec les modèles GAN les plus avancés pour la génération vidéo sur le jeu de données BAIR Robot, ainsi que des vidéos naturelles de haute fidélité à partir des jeux de données UCF-101 et TGIF (Tumbler GIF Dataset). Nous espérons que l’architecture proposée servira de référence reproductible pour une implémentation minimaliste de modèles de génération vidéo basés sur les transformateurs. Des exemples et le code sont disponibles à l’adresse suivante : https://wilson1yan.github.io/videogpt/index.html


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp