Ensemble De Données De Reconnaissance Vocale Et De Traduction Européennes Granary
Date
URL de publication
Granary est un ensemble de données vocales multilingues à grande échelle publié par l'équipe de recherche multisite de NVIDIA en 2025. Les résultats de l'article associé sont «Granary : ensemble de données de reconnaissance vocale et de traduction dans 25 langues européennes", qui vise à fournir du matériel de formation et d'évaluation de haute qualité pour les modèles ASR/AST multilingues.
Cet ensemble de données contient environ un million d'heures de données vocales ASR pseudo-étiquetées de haute qualité, couvrant 25 langues européennes (dont 23 langues de l'UE, ainsi que l'ukrainien et le russe). Ces données proviennent de corpus vocaux accessibles au public et sont traitées selon un processus unifié de pseudo-étiquetage et de filtrage qualité.
Les langues incluent :
Bulgare, tchèque, danois, allemand, grec, anglais, espagnol, estonien, finnois, français, croate, hongrois, italien, lituanien, letton, maltais, néerlandais, polonais, portugais, roumain, slovaque, slovène, suédois, ukrainien et russe.