HyperAIHyperAI
il y a un mois

TVQA+ : Ancrage spatio-temporel pour le questionnement vidéo

Jie Lei; Licheng Yu; Tamara L. Berg; Mohit Bansal
TVQA+ : Ancrage spatio-temporel pour le questionnement vidéo
Résumé

Nous présentons la tâche de Question-Réponse Vidéo Spatio-Temporelle, qui nécessite que des systèmes intelligents retrouvent simultanément des moments pertinents et détectent les concepts visuels référencés (personnes et objets) pour répondre à des questions formulées en langage naturel sur des vidéos. Nous augmentons d'abord le jeu de données TVQA avec 310 800 boîtes englobantes, reliant les objets représentés aux concepts visuels dans les questions et les réponses. Nous nommons cette version augmentée TVQA+. Nous proposons ensuite Spatio-Temporal Answerer with Grounded Evidence (STAGE), un cadre unifié qui contextualise les preuves dans les domaines spatiaux et temporels pour répondre aux questions sur les vidéos. Des expériences et analyses approfondies démontrent l'efficacité de notre cadre et comment les annotations riches de notre jeu de données TVQA+ peuvent contribuer à la tâche de question-réponse. De plus, en effectuant cette tâche conjointe, notre modèle est capable de produire des visualisations d'attention spatio-temporelle pertinentes et interprétables. Le jeu de données et le code sont disponibles publiquement à : http://tvqa.cs.unc.edu, https://github.com/jayleicn/TVQAplus.

TVQA+ : Ancrage spatio-temporel pour le questionnement vidéo | Articles de recherche récents | HyperAI