HyperAIHyperAI

Command Palette

Search for a command to run...

Feinabstimmung selbstüberwachter Lernmodelle für die end-to-end-Aussprachebewertung

Hanaa Bayomi Khaled T. Wassif Aly A. Fahmy Ahmed I. Zahran

Zusammenfassung

Automatische Aussprachebewertungsmodelle werden regelmäßig in Sprachlernanwendungen eingesetzt. Häufig verwendete Methoden zur Aussprachebewertung basieren auf Merkmalsansätzen, wie beispielsweise dem Goodness-of-Pronunciation (GOP)-Ansatz, oder auf tiefen Lernmodellen für Spracherkennung zur Durchführung der Sprachbewertung. Mit dem Aufkommen von Transformers wurden vortrainierte selbstüberwachte Lernmodelle (self-supervised learning, SSL) genutzt, um kontextuelle Sprachrepräsentationen zu extrahieren, wodurch sich Verbesserungen bei verschiedenen nachgeschalteten Aufgaben erzielen ließen. In dieser Studie schlagen wir das end-to-end-Regressor-Modell (E2E-R) für die Aussprachebewertung vor. E2E-R wird mittels eines zweistufigen Trainingsprozesses trainiert. Im ersten Schritt wird das vortrainierte SSL-Modell auf einer Phonemerkennungsaufgabe feinabgestimmt, um verbesserte Repräsentationen für die ausgesprochenen Phoneme zu erzielen. Im zweiten Schritt wird Transferlernen eingesetzt, um ein Aussprachebewertungsmodell aufzubauen, das ein Siameses-Neuronales Netzwerk verwendet, um die Repräsentationen der ausgesprochenen Phoneme mit den Embeddings der kanonischen Phoneme zu vergleichen und schließlich die Aussprachewerte zu generieren. E2E-R erreicht einen Pearson-Korrelationskoeffizienten (PCC) von 0,68, was nahezu dem Stand der Technik des GOPT-PAII-Modells entspricht, ohne dass zusätzliches nativsprachliches Sprachmaterial, Merkmalsingenieurarbeit oder externe Module für erzwungene Alignments erforderlich sind. Soweit uns bekannt ist, stellt diese Arbeit die erste Anwendung eines vortrainierten SSL-Modells für eine end-to-end-Phonem-Ebene-Aussprachebewertung auf Roh-Sprachwellenformen dar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp