HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur vidéo latent

Ruslan Rakhimov Denis Volkhonskiy Alexey Artemov Denis Zorin Evgeny Burnaev

Résumé

La tâche de génération vidéo peut être formulée comme une prédiction des cadres vidéo futurs à partir de cadres passés. Les modèles génératifs récents pour la vidéo sont confrontés à un problème de besoins élevés en calcul. Certains modèles nécessitent jusqu’à 512 unités de traitement tensoriel (Tensor Processing Units) pour une formation parallèle. Dans ce travail, nous abordons ce problème en modélisant la dynamique dans un espace latent. Après la transformation des cadres vidéo vers l’espace latent, notre modèle prédit de manière autoregressive la représentation latente des cadres suivants. Nous démontrons la performance de notre approche sur les jeux de données BAIR Robot Pushing et Kinetics-600. Cette méthode permet de réduire les exigences de calcul à seulement 8 unités de traitement graphique (Graphical Processing Units) pour l’entraînement des modèles, tout en maintenant une qualité de génération comparable.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformateur vidéo latent | Articles | HyperAI