il y a un mois

Self-Forcing++ : Vers une génération vidéo de haute qualité à l'échelle de la minute

Voir les détails de l'article Voir le code

Justin Cui Jie Wu Ming Li Tao Yang Xiaojie Li Rui Wang Andrew Bai Yuanhao Ban Cho-Jui Hsieh

Self-Forcing++ : Vers une génération vidéo de haute qualité à l'échelle de la minute

Résumé

Les modèles de diffusion ont révolutionné la génération d’images et de vidéos, atteignant une qualité visuelle sans précédent. Toutefois, leur dépendance vis-à-vis des architectures transformer entraîne des coûts computationnels prohibitifs, en particulier lorsqu’on cherche à étendre la génération à des vidéos longues. Des travaux récents ont exploré des formulations auto-régressives pour la génération de vidéos longues, généralement en effectuant une distillation à partir de modèles enseignants bidirectionnels à horizon court. Néanmoins, comme ces modèles enseignants ne peuvent pas générer de vidéos longues, l’extrapolation des modèles élèves au-delà de leur horizon d’entraînement entraîne souvent une dégradation significative de la qualité, due à la propagation cumulative des erreurs dans l’espace latent continu. Dans cet article, nous proposons une approche simple mais efficace pour atténuer cette dégradation de qualité dans la génération de vidéos à horizon long, sans nécessiter de supervision provenant de modèles enseignants de vidéos longues ni de re-entraînement sur des jeux de données de vidéos longues. Notre méthode repose sur l’exploitation du savoir riche des modèles enseignants afin de guider le modèle élève à travers des segments échantillonnés à partir de vidéos longues générées de manière autonome. Notre approche préserve la cohérence temporelle tout en permettant une extension de la durée vidéo jusqu’à 20 fois celle supportée par le modèle enseignant, tout en évitant des problèmes courants tels que l’over-exposition ou l’accumulation d’erreurs, sans avoir à recalculer les cadres chevauchants comme dans les méthodes antérieures. Lorsqu’elle est combinée à une augmentation de la capacité computationnelle, notre méthode permet de générer des vidéos d’une durée pouvant atteindre 4 minutes et 15 secondes, soit 99,9 % de la longueur maximale prise en charge par l’embedding de position de notre modèle de base, et plus de 50 fois plus longues que celles générées par notre modèle de référence. Des expériences sur des benchmarks standards ainsi que sur un benchmark amélioré que nous proposons démontrent que notre approche surpasse nettement les méthodes de référence en termes de fidélité et de cohérence. Une démonstration de nos vidéos à horizon long est disponible à l’adresse suivante : https://self-forcing-plus-plus.github.io/

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Self-Forcing++ : Vers une génération vidéo de haute qualité à l'échelle de la minute

Justin Cui Jie Wu Ming Li Tao Yang Xiaojie Li Rui Wang Andrew Bai Yuanhao Ban Cho-Jui Hsieh

Résumé

Construire l'IA avec l'IA

Hyper Newsletters