Transformerbasierte Mehraspekt-Mehrgranularität-Bewertung der Aussprache von Nichtmuttersprachlern des Englischen

Die automatische Aussprachebewertung ist eine wichtige Technologie, die selbstgesteuerten Sprachenlerner unterstützt. Während die Aussprachekualität verschiedene Aspekte umfasst, darunter Genauigkeit, Flüssigkeit, Vollständigkeit und Prosodie, modellieren frühere Ansätze in der Regel nur einen Aspekt (z.B. Genauigkeit) auf einer bestimmten Granularitätsebene (z.B. auf Phonemebene). In dieser Arbeit untersuchen wir das Modellieren von mehreren Aspekten der Aussprachebewertung auf verschiedenen Granularitätsebenen. Insbesondere trainieren wir einen Goodness of Pronunciation-merkmalsbasierten Transformer (GOPT) mit Multi-Task-Lernen. Experimente zeigen, dass GOPT bei Verwendung eines öffentlich verfügbaren automatischen Spracherkennungsmodells (ASR), das auf Librispeech trainiert wurde, die besten Ergebnisse im Speechocean762-Datensatz erzielt.