HyperAI

Ensemble De Données De Compréhension De Texte Vidéo LSVTD

Aide au téléchargement
特色图像

LSVTD signifie ensemble de données de texte vidéo à grande échelle, qui contient 100 vidéos de 21 scènes naturelles. L'ensemble de données couvre une large gamme de 13 scènes intérieures (telles que des librairies, des centres commerciaux) et 9 scènes extérieures, et sa diversité est plus de trois fois supérieure à celle de l'ensemble de données IC15.