Verbesserung des vorherigen Standes der Technik für das friesische ASR durch Feintuning von XLS-R
Automatische Spracherkennung (ASR), ein System zur Umwandlung menschlicher Sprache in Text, spielt eine zentrale Rolle bei der Digitalisierung menschlicher Kommunikation. Trotz ihrer Bedeutung sind die meisten dieser Systeme für sprachlich besser ausgestattete Sprachen wie Englisch, Mandarin oder Spanisch entwickelt, wodurch sprachlich benachteiligte Sprachen wie Friesisch unterrepräsentiert bleiben. Um dieses Problem anzugehen, präsentiert unsere Arbeit einen feinabgestimmten ASR-Modell basierend auf der Wav2Vec 2.0 XLS-R-Architektur, der auf der Common Voice-Datenbank-Version 12.0 trainiert wurde, um friesische Sprache zu transkribieren. Mit einer Lernrate von 8e-5 erreicht unser vorgeschlagenes ASR-System eine Wortfehlerquote (WER) von 15,99 %, wodurch die bisher beste Leistung von 16,25 % übertroffen wird und ein Benchmark für zukünftige Forschung in diesem Bereich geschaffen wird.