HyperAIHyperAI

Command Palette

Search for a command to run...

Granary: Datensatz zur Spracherkennung und Übersetzung in 25 europäischen Sprachen

Nithin Rao Koluguri Monica Sekoyan George Zelenfroynd Sasha Meister Shuoyang Ding et al

Zusammenfassung

Mehraufgaben- und mehrsprachige Ansätze nutzen die Stärken großer Modelle, doch die Sprachverarbeitung für Sprachen mit geringen Ressourcen bleibt aufgrund von Datenknappheit weitgehend unerforscht. Um diesem Problem entgegenzuwirken, präsentieren wir Granary – eine großskalige Sammlung von Sprachdatensätzen für die Spracherkennung und -übersetzung in 25 europäischen Sprachen. Dabei handelt es sich um den ersten Open-Source-Versuch dieser Größenordnung sowohl für Transkription als auch für Übersetzung. Die Datenauswahl wird durch einen Pseudolabeling-Pipeline mit Segmentierung, zweistufiger Inferenz, Filterung von Halluzinationen sowie Wiederherstellung der Interpunktion verbessert. Anschließend generieren wir Übersetzungsparitäten aus den pseudolabelierten Transkriptionen mittels EuroLLM und führen eine Datenauswahl durch. Die Pipeline ist auf Effizienz ausgelegt und verarbeitet riesige Datenmengen innerhalb weniger Stunden. Wir bewerten Modelle, die auf den verarbeiteten Daten trainiert wurden, anhand ihrer Leistung auf bereits vorher kuratierten Datensätzen für Sprachen mit hoher und geringer Ressourcenlage. Unsere Ergebnisse zeigen, dass diese Modelle mit etwa 50 % weniger Daten vergleichbare Leistung erzielen. Der Datensatz wird unter folgender URL verfügbar gemacht: https://…


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp