HyperAIHyperAI
il y a 11 jours

GODIVA : Génération de vidéos en domaine ouvert à partir de descriptions naturelles

Chenfei Wu, Lun Huang, Qianxi Zhang, Binyang Li, Lei Ji, Fan Yang, Guillermo Sapiro, Nan Duan
GODIVA : Génération de vidéos en domaine ouvert à partir de descriptions naturelles
Résumé

La génération de vidéos à partir de texte constitue une tâche particulièrement complexe en raison de ses exigences computationnelles élevées en phase d’entraînement et du nombre infini de réponses possibles lors de l’évaluation. Les travaux existants s’appuient généralement sur des jeux de données simples ou de petite taille, ce qui limite fortement leur capacité de généralisation. Dans ce travail, nous proposons GODIVA, un modèle pré-entraîné pour la génération vidéo à partir de texte dans un domaine ouvert, capable de générer des vidéos de manière auto-régressive en utilisant un mécanisme d’attention creuse tridimensionnel. Nous pré-entraînons notre modèle sur Howto100M, un grand jeu de données texte-vidéo contenant plus de 136 millions de paires texte-vidéo. Les expérimentations montrent que GODIVA peut non seulement être affiné sur des tâches spécifiques de génération vidéo, mais aussi présenter une bonne capacité en mode zéro-shot sur des textes inédits. Nous proposons également une nouvelle métrique, appelée Correspondance Relative (RM), pour évaluer automatiquement la qualité de la génération vidéo. Plusieurs défis sont identifiés et discutés en tant que perspectives futures.

GODIVA : Génération de vidéos en domaine ouvert à partir de descriptions naturelles | Articles de recherche récents | HyperAI