Captioning vidéo dense multimodal

La génération de légendes denses pour vidéos consiste à localiser des événements intéressants dans une vidéo non tronquée et à produire une description textuelle (légende) pour chacun de ces événements. La plupart des travaux antérieurs sur la génération de légendes denses se fondent exclusivement sur des informations visuelles, en ignorant complètement la piste audio. Or, l’audio, et plus particulièrement le discours, constitue un indicateur essentiel pour un observateur humain afin de comprendre un environnement. Dans cet article, nous proposons une nouvelle approche de génération de légendes denses capable d’utiliser un nombre quelconque de modalités pour décrire les événements. Plus précisément, nous montrons comment les modalités audio et de parole peuvent améliorer un modèle de génération de légendes denses. Nous appliquons un système de reconnaissance automatique de la parole (ASR) afin d’obtenir une description textuelle temporellement alignée du discours (similaire aux sous-titres), que nous traitons comme une entrée distincte aux côtés des images de la vidéo et de la piste audio correspondante. Nous formulons la tâche de génération de légendes comme un problème de traduction automatique et utilisons l’architecture récemment proposée Transformer pour transformer les données multimodales en descriptions textuelles. Nous démontrons les performances de notre modèle sur le jeu de données ActivityNet Captions. Des études d’ablation indiquent une contribution significative des composants audio et de parole, suggérant que ces modalités contiennent des informations complémentaires substantielles par rapport aux images vidéo. En outre, nous fournissons une analyse approfondie des résultats sur ActivityNet Captions en exploitant les balises de catégorie issues des vidéos YouTube originales. Le code source est disponible publiquement : github.com/v-iashin/MDVC