HyperAIHyperAI
il y a un mois

TVQA : Réponse aux questions vidéo localisée et compositionnelle

Jie Lei; Licheng Yu; Mohit Bansal; Tamara L. Berg
TVQA : Réponse aux questions vidéo localisée et compositionnelle
Résumé

Ces dernières années ont vu un intérêt croissant pour les tâches de questions-réponses (QA) basées sur des images. Cependant, en raison des limitations de données, beaucoup moins de travaux ont été consacrés aux tâches de QA basées sur des vidéos. Dans cet article, nous présentons TVQA, un jeu de données de QA vidéo à grande échelle basé sur 6 séries télévisées populaires. TVQA comprend 152 545 paires questions-réponses issues de 21 793 extraits, couvrant plus de 460 heures de vidéo. Les questions sont conçues pour être compositionnelles, nécessitant que les systèmes localisent conjointement les moments pertinents au sein d'un extrait, comprennent le dialogue basé sur les sous-titres et reconnaissent les concepts visuels pertinents. Nous fournissons une analyse de ce nouveau jeu de données ainsi que plusieurs modèles de référence et un cadre de réseau neuronal multi-flux entièrement entraînable pour la tâche TVQA. Le jeu de données est disponible au public à l'adresse http://tvqa.cs.unc.edu.

TVQA : Réponse aux questions vidéo localisée et compositionnelle | Articles de recherche récents | HyperAI