HyperAIHyperAI

Granary Europäischer Datensatz Zur Spracherkennung Und -übersetzung

Datum

vor 14 Tagen

Organisation

NVIDIA

Veröffentlichungs-URL

huggingface.co

Download-Hilfe

Granary ist ein umfangreicher mehrsprachiger Sprachdatensatz, der 2025 vom standortübergreifenden Forschungsteam von NVIDIA veröffentlicht wurde. Die zugehörigen Ergebnisse des Papiers lauten:Granary: Datensatz zur Spracherkennung und -übersetzung in 25 europäischen Sprachen“, dessen Ziel es ist, hochwertige Schulungs- und Evaluierungsmaterialien für mehrsprachige ASR/AST-Modelle bereitzustellen.

Dieser Datensatz enthält rund 1 Million Stunden hochwertige pseudo-gelabelte ASR-Sprachdaten aus 25 europäischen Sprachen (darunter 23 EU-Sprachen sowie Ukrainisch und Russisch). Die Daten stammen aus öffentlich zugänglichen Sprachkorpora und werden durch einen einheitlichen Pseudo-Labeling- und Qualitätsfilterprozess verarbeitet.

Zu den Sprachen gehören:

Bulgarisch, Tschechisch, Dänisch, Deutsch, Griechisch, Englisch, Spanisch, Estnisch, Finnisch, Französisch, Kroatisch, Ungarisch, Italienisch, Litauisch, Lettisch, Maltesisch, Niederländisch, Polnisch, Portugiesisch, Rumänisch, Slowakisch, Slowenisch, Schwedisch, Ukrainisch und Russisch.

Granary Europäischer Datensatz Zur Spracherkennung Und -übersetzung | Datensätze | HyperAI