HyperAIHyperAI

Command Palette

Search for a command to run...

Prédiction de vidéos avec VQVAE

Jacob Walker Ali Razavi Aäron van den Oord

Résumé

Ces dernières années, la tâche de prédiction vidéo — c’est-à-dire la prévision de vidéos futures à partir de cadres vidéo passés — a suscité un intérêt croissant au sein de la communauté scientifique. Dans cet article, nous proposons une nouvelle approche de ce problème fondée sur les Auto-encodeurs Variationnels Quantifiés en Vecteurs (VQ-VAE). Grâce au VQ-VAE, nous compressons des vidéos en haute résolution en un ensemble hiérarchique de variables latentes discrètes multi-échelles. Par rapport aux pixels, cet espace latent compressé présente une dimensionnalité drastiquement réduite, ce qui nous permet d’appliquer des modèles génératifs autoregressifs évolutifs pour prédire les vidéos. Contrairement aux travaux antérieurs qui se sont principalement concentrés sur des jeux de données fortement contraints, nous nous focalisons sur des jeux de données très diversifiés et de grande ampleur, tels que Kinetics-600. Nous réalisons la prédiction vidéo à une résolution plus élevée — 256×256 — sur des vidéos non contraintes, ce qui dépasse tout autre méthode connue à ce jour. Nous validons également notre approche par rapport aux travaux antérieurs à l’aide d’une évaluation humaine réalisée via une plateforme de crowd-sourcing.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp