HowToVQA69M-Datensatz Zur Beantwortung Von Videofragen
Datum
Größe
Veröffentlichungs-URL
Lizenz
其他
Kategorien

VQA steht für Visual Question Answering (visuelles Fragen-Beantworten). HowToVQA69M ist ein Datensatz mit Antworten auf Videofragen, der 69.270.581 Fragen und Antworten enthält. Sein Umfang ist doppelt so groß wie der des vorhandenen Datensatzes zur Beantwortung von Videofragen und -fragen VideoQA.
Im Durchschnitt entstehen aus jedem Rohvideo 43 Videoclips mit einer Länge von jeweils 12,1 Sekunden und 1,2 Fragen und Antworten, wobei die Fragen 8,7 Wörter und die Antworten 2,4 Wörter umfassen. Der HowToVQA69M-Datensatz ist sehr vielfältig und enthält mehr als 16 Millionen eindeutige Antworten, von denen mehr als 2 Millionen eindeutige Antworten mehr als einmal und mehr als 300.000 eindeutige Antworten mehr als 10 Mal vorkommen.