Ensemble De Données De Questions-réponses Vidéo HowToVQA69M
Date
Taille
URL de publication
Licence
其他

VQA signifie « Visual Question Answering ». HowToVQA69M est un ensemble de données de questions-réponses vidéo contenant 69 270 581 questions et réponses. Son échelle est deux fois supérieure à celle de l'ensemble de données de questions-réponses vidéo existant VideoQA.
En moyenne, chaque vidéo brute produit 43 clips vidéo, chacun d'une durée de 12,1 secondes et associé à 1,2 questions et réponses, les questions contenant 8,7 mots et les réponses contenant 2,4 mots. L'ensemble de données HowToVQA69M est très diversifié, contenant plus de 16 millions de réponses uniques, dont plus de 2 millions de réponses uniques apparaissent plus d'une fois et plus de 300 000 réponses uniques apparaissent plus de 10 fois.