HyperAIHyperAI

Command Palette

Search for a command to run...

Snap Video : Transformateurs spatio-temporels à grande échelle pour la synthèse vidéo à partir de texte

Résumé

Les modèles contemporains de génération d’images affichent une qualité et une polyvalence remarquables. Attirés par ces avantages, la communauté de recherche les réutilise pour générer des vidéos. Toutefois, étant donné que le contenu vidéo est fortement redondant, nous soutenons que l’application naïve des progrès réalisés dans les modèles d’image au domaine de la génération vidéo entraîne une perte de fidélité du mouvement, une dégradation de la qualité visuelle et une mauvaise évolutivité. Dans ce travail, nous proposons Snap Video, un modèle conçu dès le départ pour la vidéo, qui aborde systématiquement ces défis. Pour cela, nous étendons d’abord le cadre EDM afin de prendre en compte les pixels redondants dans les dimensions spatiale et temporelle, tout en supportant naturellement la génération vidéo. Ensuite, nous démontrons qu’un U-Net — l’architecture phare derrière la génération d’images — se comporte mal lorsqu’il est utilisé pour générer des vidéos, nécessitant un surcroît computationnel important. Nous proposons donc une nouvelle architecture fondée sur les transformateurs, qui s’entraîne 3,31 fois plus vite que les U-Nets (et environ 4,5 fois plus vite à l’inférence). Cette amélioration permet, pour la première fois, d’entraîner efficacement un modèle texte-à-vidéo comportant des milliards de paramètres, d’atteindre des résultats de pointe sur plusieurs benchmarks, et de produire des vidéos de qualité nettement supérieure, avec une cohérence temporelle accrue et une complexité du mouvement plus élevée. Les études utilisateurs montrent que notre modèle est nettement préféré par rapport aux méthodes les plus récentes. Pour en savoir plus, rendez-vous sur notre site : https://snap-research.github.io/snapvideo/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp