HyperAIHyperAI
vor 2 Monaten

Automatische Dialektidentifikation im arabischen Rundfunksprachsignal

Ahmed Ali; Najim Dehak; Patrick Cardinal; Sameer Khurana; Sree Harsha Yella; James Glass; Peter Bell; Steve Renals
Automatische Dialektidentifikation im arabischen Rundfunksprachsignal
Abstract

Wir untersuchen verschiedene Ansätze zur Dialektidentifikation im arabischen Rundfunksprachmaterial, indem wir phonetische und lexikalische Merkmale aus einem Spracherkennungssystem sowie akustische Merkmale unter Verwendung des i-Vektor-Frameworks nutzen. Wir haben sowohl generative als auch diskriminative Klassifizierer analysiert und diese Merkmale mittels eines multiklassen Support Vector Machines (SVM) kombiniert. Unsere Ergebnisse wurden anhand einer arabisch/englischen Sprachidentifikationsaufgabe validiert, bei der eine Genauigkeit von 100 % erreicht wurde. Diese Merkmale wurden in einem binären Klassifizierer verwendet, um zwischen Modernem Standardarabisch (MSA) und Dialektarabisch zu unterscheiden, ebenfalls mit einer Genauigkeit von 100 %. Des Weiteren berichten wir über die Ergebnisse der Anwendung der vorgeschlagenen Methode zur Unterscheidung der fünf am häufigsten verwendeten arabischen Dialekte: Ägyptisch, Golfarabisch, Levantinisches Arabisch, Nordafrikanisches Arabisch und MSA, wobei eine Genauigkeit von 52 % erzielt wurde. Wir diskutieren Fehler bei der Dialektidentifikation im Kontext des Dialektwechsels zwischen Dialektarabisch und MSA und vergleichen das Fehlermuster zwischen manuell annotierten Daten und den Ausgaben unseres Klassifizierers. Zudem stellen wir die Trainings- und Testdaten als Standardkorpus für die Dialektidentifikation zur Verfügung.