Command Palette
Search for a command to run...
Self-Forcing++ : Vers une génération vidéo de haute qualité à l'échelle de la minute
Justin Cui Jie Wu Ming Li Tao Yang Xiaojie Li Rui Wang Andrew Bai Yuanhao Ban Cho-Jui Hsieh

Résumé
Les modèles de diffusion ont révolutionné la génération d’images et de vidéos, atteignant une qualité visuelle sans précédent. Toutefois, leur dépendance vis-à-vis des architectures transformer entraîne des coûts computationnels prohibitifs, en particulier lorsqu’on cherche à étendre la génération à des vidéos longues. Des travaux récents ont exploré des formulations auto-régressives pour la génération de vidéos longues, généralement en effectuant une distillation à partir de modèles enseignants bidirectionnels à horizon court. Néanmoins, comme ces modèles enseignants ne peuvent pas générer de vidéos longues, l’extrapolation des modèles élèves au-delà de leur horizon d’entraînement entraîne souvent une dégradation significative de la qualité, due à la propagation cumulative des erreurs dans l’espace latent continu. Dans cet article, nous proposons une approche simple mais efficace pour atténuer cette dégradation de qualité dans la génération de vidéos à horizon long, sans nécessiter de supervision provenant de modèles enseignants de vidéos longues ni de re-entraînement sur des jeux de données de vidéos longues. Notre méthode repose sur l’exploitation du savoir riche des modèles enseignants afin de guider le modèle élève à travers des segments échantillonnés à partir de vidéos longues générées de manière autonome. Notre approche préserve la cohérence temporelle tout en permettant une extension de la durée vidéo jusqu’à 20 fois celle supportée par le modèle enseignant, tout en évitant des problèmes courants tels que l’over-exposition ou l’accumulation d’erreurs, sans avoir à recalculer les cadres chevauchants comme dans les méthodes antérieures. Lorsqu’elle est combinée à une augmentation de la capacité computationnelle, notre méthode permet de générer des vidéos d’une durée pouvant atteindre 4 minutes et 15 secondes, soit 99,9 % de la longueur maximale prise en charge par l’embedding de position de notre modèle de base, et plus de 50 fois plus longues que celles générées par notre modèle de référence. Des expériences sur des benchmarks standards ainsi que sur un benchmark amélioré que nous proposons démontrent que notre approche surpasse nettement les méthodes de référence en termes de fidélité et de cohérence. Une démonstration de nos vidéos à horizon long est disponible à l’adresse suivante : https://self-forcing-plus-plus.github.io/
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.