Command Palette
Search for a command to run...
Feinabstimmung selbstüberwachter Lernmodelle für die end-to-end-Aussprachebewertung
Feinabstimmung selbstüberwachter Lernmodelle für die end-to-end-Aussprachebewertung
Hanaa Bayomi Khaled T. Wassif Aly A. Fahmy Ahmed I. Zahran
Zusammenfassung
Automatische Aussprachebewertungsmodelle werden regelmäßig in Sprachlernanwendungen eingesetzt. Häufig verwendete Methoden zur Aussprachebewertung basieren auf Merkmalsansätzen, wie beispielsweise dem Goodness-of-Pronunciation (GOP)-Ansatz, oder auf tiefen Lernmodellen für Spracherkennung zur Durchführung der Sprachbewertung. Mit dem Aufkommen von Transformers wurden vortrainierte selbstüberwachte Lernmodelle (self-supervised learning, SSL) genutzt, um kontextuelle Sprachrepräsentationen zu extrahieren, wodurch sich Verbesserungen bei verschiedenen nachgeschalteten Aufgaben erzielen ließen. In dieser Studie schlagen wir das end-to-end-Regressor-Modell (E2E-R) für die Aussprachebewertung vor. E2E-R wird mittels eines zweistufigen Trainingsprozesses trainiert. Im ersten Schritt wird das vortrainierte SSL-Modell auf einer Phonemerkennungsaufgabe feinabgestimmt, um verbesserte Repräsentationen für die ausgesprochenen Phoneme zu erzielen. Im zweiten Schritt wird Transferlernen eingesetzt, um ein Aussprachebewertungsmodell aufzubauen, das ein Siameses-Neuronales Netzwerk verwendet, um die Repräsentationen der ausgesprochenen Phoneme mit den Embeddings der kanonischen Phoneme zu vergleichen und schließlich die Aussprachewerte zu generieren. E2E-R erreicht einen Pearson-Korrelationskoeffizienten (PCC) von 0,68, was nahezu dem Stand der Technik des GOPT-PAII-Modells entspricht, ohne dass zusätzliches nativsprachliches Sprachmaterial, Merkmalsingenieurarbeit oder externe Module für erzwungene Alignments erforderlich sind. Soweit uns bekannt ist, stellt diese Arbeit die erste Anwendung eines vortrainierten SSL-Modells für eine end-to-end-Phonem-Ebene-Aussprachebewertung auf Roh-Sprachwellenformen dar.