HyperAIHyperAI

Command Palette

Search for a command to run...

Génération de vidéos longues avec VQGAN indépendant du temps et Transformer sensible au temps

Songwei Ge Thomas Hayes Harry Yang Xi Yin Guan Pang David Jacobs Jia-Bin Huang Devi Parikh

Résumé

Les vidéos sont créées pour exprimer des émotions, échanger des informations et partager des expériences. La synthèse vidéo a longtemps suscité l’intérêt des chercheurs. Malgré les progrès rapides stimulés par les avancées en synthèse visuelle, la plupart des études existantes se concentrent sur l’amélioration de la qualité des images (frames) et des transitions entre elles, tandis que peu de progrès ont été réalisés dans la génération de vidéos longues. Dans cet article, nous proposons une méthode fondée sur 3D-VQGAN et les modèles de transformateurs pour générer des vidéos comptant des milliers de frames. Nos évaluations montrent que notre modèle, entraîné sur des extraits vidéo de 16 frames provenant de benchmarks standards tels que UCF-101, Sky Time-lapse et Taichi-HD, est capable de produire des vidéos longues, diversifiées, cohérentes et de haute qualité. Nous présentons également des extensions conditionnelles de notre approche permettant de générer des vidéos longues significatives en intégrant des informations temporelles issues de textes et d’audio. Les vidéos et le code sont disponibles à l’adresse suivante : https://songweige.github.io/projects/tats/index.html.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp