Granary Europäischer Datensatz Zur Spracherkennung Und -übersetzung
Datum
Veröffentlichungs-URL
Kategorien
Granary ist ein umfangreicher mehrsprachiger Sprachdatensatz, der 2025 vom standortübergreifenden Forschungsteam von NVIDIA veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers lauten:Granary: Datensatz zur Spracherkennung und -übersetzung in 25 europäischen Sprachen“, dessen Ziel es ist, hochwertige Schulungs- und Evaluierungsmaterialien für mehrsprachige ASR/AST-Modelle bereitzustellen.
Dieser Datensatz enthält rund 1 Million Stunden hochwertige pseudo-gelabelte ASR-Sprachdaten aus 25 europäischen Sprachen (darunter 23 EU-Sprachen sowie Ukrainisch und Russisch). Die Daten stammen aus öffentlich zugänglichen Sprachkorpora und werden durch einen einheitlichen Pseudo-Labeling- und Qualitätsfilterprozess verarbeitet.
Zu den Sprachen gehören:
Bulgarisch, Tschechisch, Dänisch, Deutsch, Griechisch, Englisch, Spanisch, Estnisch, Finnisch, Französisch, Kroatisch, Ungarisch, Italienisch, Litauisch, Lettisch, Maltesisch, Niederländisch, Polnisch, Portugiesisch, Rumänisch, Slowakisch, Slowenisch, Schwedisch, Ukrainisch und Russisch.