HyperAIHyperAI
il y a 2 mois

TVR : Un jeu de données à grande échelle pour la récupération de moments vidéo-sous-titres

Jie Lei, Licheng Yu, Tamara L. Berg, Mohit Bansal
TVR : Un jeu de données à grande échelle pour la récupération de moments vidéo-sous-titres
Résumé

Nous introduisons TV show Retrieval (TVR), un nouveau jeu de données multimodal pour la recherche d'extraits vidéo. TVR exige que les systèmes comprennent à la fois les vidéos et leurs textes associés (dialogues sous-titrés), ce qui rend le défi plus réaliste. Le jeu de données comprend 109 000 requêtes collectées sur 21 800 vidéos provenant de 6 séries télévisées de genres divers, chaque requête étant associée à une fenêtre temporelle précise. Les requêtes sont également étiquetées selon leur type, indiquant si elles sont davantage liées à la vidéo, au texte sous-titré, ou aux deux, ce qui permet une analyse approfondie du jeu de données ainsi que des méthodes qui s'appuient dessus. Des tests rigoureux de qualification et de vérification post-annotation ont été appliqués afin d’assurer la qualité des données collectées. Par ailleurs, nous proposons plusieurs modèles de référence ainsi qu’un nouveau réseau, le réseau de Localisation de Moment Multimodal (XML), conçu pour les tâches de recherche d’instants multimodaux. Le modèle XML proposé adopte une architecture de fusion tardive basée sur un détecteur convolutif de début-fin (ConvSE) original, surpassant largement les modèles de référence tout en offrant une meilleure efficacité, ce qui en fait un point de départ solide pour les travaux futurs. Nous avons également collecté des descriptions supplémentaires pour chaque instant annoté dans TVR, formant ainsi un nouveau jeu de données multimodal de description (captioning) comprenant 262 000 légendes, nommé TV show Caption (TVC). Les deux jeux de données sont désormais accessibles au public. TVR : https://tvr.cs.unc.edu, TVC : https://tvr.cs.unc.edu/tvc.html.