HyperAIHyperAI
il y a 17 jours

Une Recette pour l’Échelle du Génération de Vidéo à Partir de Texte à l’Aide de Vidéos Sans Texte

Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
Une Recette pour l’Échelle du Génération de Vidéo à Partir de Texte à l’Aide de Vidéos Sans Texte
Résumé

La génération vidéo à partir de texte basée sur la diffusion a connu des progrès remarquables au cours de la dernière année, mais elle reste encore en retard par rapport à la génération image à partir de texte. L'une des principales raisons réside dans l'échelle limitée des données publiques disponibles (par exemple, 10 millions de paires vidéo-texte dans WebVid10M contre 5 milliards de paires image-texte dans LAION), compte tenu du coût élevé de la création de légendes vidéo. En revanche, il serait bien plus facile de collecter des extraits non étiquetés à partir de plateformes vidéo telles que YouTube. Inspirés par cette observation, nous proposons un nouveau cadre de génération vidéo à partir de texte, appelé TF-T2V, qui peut apprendre directement à partir de vidéos sans légendes textuelles. La logique sous-jacente repose sur la séparation du processus de décodage du texte de celui de la modélisation temporelle. Pour cela, nous introduisons une branche de contenu et une branche de mouvement, optimisées conjointement avec un partage de poids. Suivant cette architecture, nous étudions l'impact de doubler l'échelle de l'ensemble d'entraînement (c’est-à-dire le jeu de données vidéo uniquement WebVid10M) en intégrant des vidéos non étiquetées collectées aléatoirement, et observons avec satisfaction une amélioration des performances (FID passant de 9,67 à 8,19 et FVD de 484 à 441), ce qui démontre la scalabilité de notre approche. Nous constatons également que notre modèle peut bénéficier d'une amélioration continue des performances (FID de 8,19 à 7,64 et FVD de 441 à 366) après avoir réintroduit certaines étiquettes textuelles pour l'entraînement. Enfin, nous validons l'efficacité et la généralisation de notre approche sur deux paradigmes : la génération vidéo native à partir de texte et la synthèse vidéo compositionnelle. Le code source et les modèles seront rendus accessibles publiquement à l'adresse https://tf-t2v.github.io/.

Une Recette pour l’Échelle du Génération de Vidéo à Partir de Texte à l’Aide de Vidéos Sans Texte | Articles de recherche récents | HyperAI