iQIYI-VID Multimodaler Videozeichendatensatz
Datum
vor 3 Jahren
Veröffentlichungs-URL
Lizenz
其他
Kategorien

iQIYI-VID ist ein multimodaler Videozeichendatensatz. Der Datensatz enthält 5.000 berühmte Künstler und 500.000 Videoclips mit einer Gesamtlänge von 1.000 Stunden, wobei jedes Video 1 bis 30 Sekunden lang ist. Die Videoclips stammen aus Varietéshows, Filmen und Fernsehserien von iQiyi. Jeder Videoclip wird manuell mit einer Fehlerrate von weniger als 0,2 % kommentiert. Die Forscher evaluierten modernste Modelle zur Gesichtserkennung, Personenidentifizierung und Sprechererkennung anhand des iQIYI-VID-Datensatzes.