HyperAIHyperAI
vor 3 Tagen

Granary: Datensatz zur Spracherkennung und Übersetzung in 25 europäischen Sprachen

Nithin Rao Koluguri, Monica Sekoyan, George Zelenfroynd, Sasha Meister, Shuoyang Ding, et al
Granary: Datensatz zur Spracherkennung und Übersetzung in 25 europäischen Sprachen
Abstract

Mehraufgaben- und mehrsprachige Ansätze nutzen die Stärken großer Modelle, doch die Sprachverarbeitung für Sprachen mit geringen Ressourcen bleibt aufgrund von Datenknappheit weitgehend unerforscht. Um diesem Problem entgegenzuwirken, präsentieren wir Granary – eine großskalige Sammlung von Sprachdatensätzen für die Spracherkennung und -übersetzung in 25 europäischen Sprachen. Dabei handelt es sich um den ersten Open-Source-Versuch dieser Größenordnung sowohl für Transkription als auch für Übersetzung. Die Datenauswahl wird durch einen Pseudolabeling-Pipeline mit Segmentierung, zweistufiger Inferenz, Filterung von Halluzinationen sowie Wiederherstellung der Interpunktion verbessert. Anschließend generieren wir Übersetzungsparitäten aus den pseudolabelierten Transkriptionen mittels EuroLLM und führen eine Datenauswahl durch. Die Pipeline ist auf Effizienz ausgelegt und verarbeitet riesige Datenmengen innerhalb weniger Stunden. Wir bewerten Modelle, die auf den verarbeiteten Daten trainiert wurden, anhand ihrer Leistung auf bereits vorher kuratierten Datensätzen für Sprachen mit hoher und geringer Ressourcenlage. Unsere Ergebnisse zeigen, dass diese Modelle mit etwa 50 % weniger Daten vergleichbare Leistung erzielen. Der Datensatz wird unter folgender URL verfügbar gemacht: https://…