HyperAIHyperAI
il y a 7 jours

HowToCaption : Inciter les LLM à transformer des annotations vidéo à grande échelle

Nina Shvetsova, Anna Kukleva, Xudong Hong, Christian Rupprecht, Bernt Schiele, Hilde Kuehne
HowToCaption : Inciter les LLM à transformer des annotations vidéo à grande échelle
Résumé

Les vidéos pédagogiques constituent une source courante pour l’apprentissage de représentations texte-vidéo, voire multimodales, en exploitant les sous-titres extraits à partir du signal audio à l’aide de systèmes de reconnaissance automatique de la parole (ASR). Toutefois, contrairement aux légendes annotées par des humains, à la fois la parole et les sous-titres diffèrent naturellement du contenu visuel des vidéos, fournissant ainsi une supervision bruitée. En conséquence, les données vidéo issues du web, non annotées à grande échelle, restent sous-optimales pour l’entraînement de modèles texte-vidéo. Dans ce travail, nous proposons d’utiliser les capacités des grands modèles linguistiques (LLM) afin d’obtenir à grande échelle des descriptions vidéo de haute qualité, alignées avec les vidéos. Plus précisément, nous sollicitons un LLM pour générer des légendes vidéo plausibles à partir des sous-titres ASR extraits de vidéos pédagogiques. Pour ce faire, nous introduisons une méthode d’instruction permettant de prendre en compte un texte de sous-titres plus long, ce qui nous permet de capturer l’information contextuelle dépassant une simple phrase. Nous sollicitons ensuite le LLM pour qu’il génère des horodatages correspondants à chaque légende produite, en se basant sur les horodatages des sous-titres, puis alignons temporellement les légendes générées avec la vidéo. Ainsi, nous obtenons à grande échelle des légendes vidéo de style humain, sans nécessiter d’intervention humaine. Nous appliquons notre méthode aux sous-titres du jeu de données HowTo100M, créant ainsi un nouveau jeu de données à grande échelle, nommé HowToCaption. Nos évaluations montrent que les légendes obtenues améliorent significativement les performances sur de nombreux jeux de données de référence pour la recherche texte-vidéo en zéro-shot et la génération de légendes vidéo. Elles permettent également une désagrégation de la narration textuelle par rapport à l’audio, ce qui améliore les performances dans les tâches texte-vidéo-audio.