HyperAIHyperAI
il y a 8 jours

Préservez votre propre corrélation : un prior bruit pour les modèles de diffusion vidéo

Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji
Préservez votre propre corrélation : un prior bruit pour les modèles de diffusion vidéo
Résumé

Malgré les progrès considérables réalisés dans la génération d’images de haute qualité à l’aide de modèles de diffusion, la synthèse d’une séquence d’images animées à la fois photoréalistes et temporellement cohérentes reste encore à ses débuts. Bien que des jeux de données à grande échelle (du niveau des milliards de données) soient disponibles pour la génération d’images, la collecte de données vidéo à une échelle similaire reste un défi. De plus, l’entraînement d’un modèle de diffusion vidéo est bien plus coûteux en ressources computationnelles que celui d’un modèle d’image. Dans ce travail, nous explorons l’ajustage fin (fine-tuning) d’un modèle pré-entraîné de diffusion d’images à l’aide de données vidéo comme une solution pratique pour la tâche de synthèse vidéo. Nous constatons qu’étendre naïvement le prior de bruit d’image au prior de bruit vidéo conduit à des performances sous-optimales. En revanche, notre prior de bruit vidéo soigneusement conçu permet d’obtenir des performances significativement améliorées. Des validations expérimentales étendues montrent que notre modèle, nommé Preserve Your Own Correlation (PYoCo), atteint des résultats SOTA (state-of-the-art) en mode zéro-shot pour la tâche de génération vidéo à partir de texte sur les benchmarks UCF-101 et MSR-VTT. Il obtient également des performances SOTA en qualité de génération vidéo sur le benchmark à petite échelle UCF-101, avec un modèle 10 fois plus petit et une consommation de calcul nettement réduite par rapport aux approches antérieures.

Préservez votre propre corrélation : un prior bruit pour les modèles de diffusion vidéo | Articles de recherche récents | HyperAI