HyperAIHyperAI

Command Palette

Search for a command to run...

TVQA+ : Ancrage spatio-temporel pour le questionnement vidéo

Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal

Résumé

Nous présentons la tâche de Question-Réponse Vidéo Spatio-Temporelle, qui nécessite que des systèmes intelligents retrouvent simultanément des moments pertinents et détectent les concepts visuels référencés (personnes et objets) pour répondre à des questions formulées en langage naturel sur des vidéos. Nous augmentons d'abord le jeu de données TVQA avec 310 800 boîtes englobantes, reliant les objets représentés aux concepts visuels dans les questions et les réponses. Nous nommons cette version augmentée TVQA+. Nous proposons ensuite Spatio-Temporal Answerer with Grounded Evidence (STAGE), un cadre unifié qui contextualise les preuves dans les domaines spatiaux et temporels pour répondre aux questions sur les vidéos. Des expériences et analyses approfondies démontrent l'efficacité de notre cadre et comment les annotations riches de notre jeu de données TVQA+ peuvent contribuer à la tâche de question-réponse. De plus, en effectuant cette tâche conjointe, notre modèle est capable de produire des visualisations d'attention spatio-temporelle pertinentes et interprétables. Le jeu de données et le code sont disponibles publiquement à : http://tvqa.cs.unc.edu, https://github.com/jayleicn/TVQAplus.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp