Ensemble De Données De Compréhension De Texte Vidéo LSVTD
Date
il y a 3 ans
URL de publication
Licence
其他
Catégories

LSVTD signifie ensemble de données de texte vidéo à grande échelle, qui contient 100 vidéos de 21 scènes naturelles. L'ensemble de données couvre une large gamme de 13 scènes intérieures (telles que des librairies, des centres commerciaux) et 9 scènes extérieures, et sa diversité est plus de trois fois supérieure à celle de l'ensemble de données IC15.