HyperAIHyperAI

Command Palette

Search for a command to run...

TVQA : Réponse aux questions vidéo localisée et compositionnelle

Jie Lei Licheng Yu Mohit Bansal Tamara L. Berg

Résumé

Ces dernières années ont vu un intérêt croissant pour les tâches de questions-réponses (QA) basées sur des images. Cependant, en raison des limitations de données, beaucoup moins de travaux ont été consacrés aux tâches de QA basées sur des vidéos. Dans cet article, nous présentons TVQA, un jeu de données de QA vidéo à grande échelle basé sur 6 séries télévisées populaires. TVQA comprend 152 545 paires questions-réponses issues de 21 793 extraits, couvrant plus de 460 heures de vidéo. Les questions sont conçues pour être compositionnelles, nécessitant que les systèmes localisent conjointement les moments pertinents au sein d'un extrait, comprennent le dialogue basé sur les sous-titres et reconnaissent les concepts visuels pertinents. Nous fournissons une analyse de ce nouveau jeu de données ainsi que plusieurs modèles de référence et un cadre de réseau neuronal multi-flux entièrement entraînable pour la tâche TVQA. Le jeu de données est disponible au public à l'adresse http://tvqa.cs.unc.edu.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp