Ensemble De Données Vidéo Multilingue How2
Date
il y a 3 ans
URL de publication
Licence
CC BY-SA 4.0
Catégories

Il s'agit d'un ensemble de données vidéo multilingues contenant 13 500 vidéos et 300 heures de discours, tous avec sous-titres anglais et traductions portugaises. Parmi eux, 185 187 corpus sont utilisés pour la formation, 2 022 corpus sont utilisés pour le développement (dev) et 2 361 corpus sont utilisés pour les tests. Cet ensemble de données peut être utilisé pour étudier la compréhension multimodale du langage.