Ein hierarchischer kontextbewusster Modellierungsansatz für die mehrdimensionale und feingranulare Aussprachebewertung

Die automatische Aussprachebewertung (Automatic Pronunciation Assessment, APA) spielt eine entscheidende Rolle bei der computergestützten Aussprachenausbildung (Computer-assisted Pronunciation Training, CAPT), insbesondere bei der Bewertung der Sprechkompetenz von Lernenden einer zweiten Sprache (L2). Ein offensichtlicher Nachteil der meisten gängigen Methoden besteht jedoch darin, dass sie den Modellierungsprozess über verschiedene sprachliche Granularitäten hinweg parallelisieren, ohne die hierarchischen und lokalen kontextuellen Beziehungen zwischen ihnen zu berücksichtigen. Im Hinblick auf dies schlägt dieser Artikel einen neuen hierarchischen Ansatz für die mehrseitige und mehrgranulare APA vor. Insbesondere führen wir zunächst das Konzept der Supra-Phoneme ein, um feinere semantische Merkmale von L2-Sprechern zu erforschen. Zweitens nutzen wir eine tiefgangige trennbare Faltungsschicht (depth-wise separable convolution layer), um die lokalen Kontexthinweise auf UnterwortsEbene besser zu verpacken. Schließlich setzen wir einen Punkte-Beschränkungs-Aufmerksamkeits-Pooling-Mechanismus ein, um die Satzebenebewertungen vorherzusagen und die Komponentenmodelle mit einem Mehrfachaufgaben-Lernrahmen (multitask learning, MTL) zu optimieren. Ausführliche Experimente auf einem öffentlich zugänglichen Benchmark-Datensatz, nämlich SpeechOcean762, zeigen die Effektivität unseres Ansatzes im Vergleich zu einigen neuesten Baseline-Methoden.