Feinabstimmung selbstüberwachter Lernmodelle für die end-to-end-Aussprachebewertung
Automatische Aussprachebewertungsmodelle werden regelmäßig in Sprachlernanwendungen eingesetzt. Häufig verwendete Methoden zur Aussprachebewertung basieren auf Merkmalsansätzen, wie beispielsweise dem Goodness-of-Pronunciation (GOP)-Ansatz, oder auf tiefen Lernmodellen für Spracherkennung zur Durchführung der Sprachbewertung. Mit dem Aufkommen von Transformers wurden vortrainierte selbstüberwachte Lernmodelle (self-supervised learning, SSL) genutzt, um kontextuelle Sprachrepräsentationen zu extrahieren, wodurch sich Verbesserungen bei verschiedenen nachgeschalteten Aufgaben erzielen ließen. In dieser Studie schlagen wir das end-to-end-Regressor-Modell (E2E-R) für die Aussprachebewertung vor. E2E-R wird mittels eines zweistufigen Trainingsprozesses trainiert. Im ersten Schritt wird das vortrainierte SSL-Modell auf einer Phonemerkennungsaufgabe feinabgestimmt, um verbesserte Repräsentationen für die ausgesprochenen Phoneme zu erzielen. Im zweiten Schritt wird Transferlernen eingesetzt, um ein Aussprachebewertungsmodell aufzubauen, das ein Siameses-Neuronales Netzwerk verwendet, um die Repräsentationen der ausgesprochenen Phoneme mit den Embeddings der kanonischen Phoneme zu vergleichen und schließlich die Aussprachewerte zu generieren. E2E-R erreicht einen Pearson-Korrelationskoeffizienten (PCC) von 0,68, was nahezu dem Stand der Technik des GOPT-PAII-Modells entspricht, ohne dass zusätzliches nativsprachliches Sprachmaterial, Merkmalsingenieurarbeit oder externe Module für erzwungene Alignments erforderlich sind. Soweit uns bekannt ist, stellt diese Arbeit die erste Anwendung eines vortrainierten SSL-Modells für eine end-to-end-Phonem-Ebene-Aussprachebewertung auf Roh-Sprachwellenformen dar.