il y a 7 mois

Résumé

Ces dernières années ont vu un intérêt croissant pour les tâches de questions-réponses (QA) basées sur des images. Cependant, en raison des limitations de données, beaucoup moins de travaux ont été consacrés aux tâches de QA basées sur des vidéos. Dans cet article, nous présentons TVQA, un jeu de données de QA vidéo à grande échelle basé sur 6 séries télévisées populaires. TVQA comprend 152 545 paires questions-réponses issues de 21 793 extraits, couvrant plus de 460 heures de vidéo. Les questions sont conçues pour être compositionnelles, nécessitant que les systèmes localisent conjointement les moments pertinents au sein d'un extrait, comprennent le dialogue basé sur les sous-titres et reconnaissent les concepts visuels pertinents. Nous fournissons une analyse de ce nouveau jeu de données ainsi que plusieurs modèles de référence et un cadre de réseau neuronal multi-flux entièrement entraînable pour la tâche TVQA. Le jeu de données est disponible au public à l'adresse http://tvqa.cs.unc.edu.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Multimodal

Traitement Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Jie Lei Licheng Yu Mohit Bansal Tamara L. Berg

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Multimodal

Traitement Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Jie Lei Licheng Yu Mohit Bansal Tamara L. Berg

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

TVQA : Réponse aux questions vidéo localisée et compositionnelle | Articles | HyperAI

Command Palette

TVQA : Réponse aux questions vidéo localisée et compositionnelle

Jie Lei Licheng Yu Mohit Bansal Tamara L. Berg

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TVQA : Réponse aux questions vidéo localisée et compositionnelle

Jie Lei Licheng Yu Mohit Bansal Tamara L. Berg

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

TVQA : Réponse aux questions vidéo localisée et compositionnelle

Jie Lei Licheng Yu Mohit Bansal Tamara L. Berg

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters