Sentimentanalyse von urdu-sprachigen Online-Bewertungen unter Verwendung von Deep-Learning-Modellen
Die meisten bestehenden Studien konzentrieren sich auf verbreitete Sprachen wie Englisch, Spanisch, Chinesisch, Japanisch und andere, während Urdu – trotz über 60 Millionen Muttersprachler – nur begrenzt Beachtung gefunden hat. In diesem Artikel entwickeln wir ein tiefes Lernmodell zur Analyse von Sentimenten in dieser unterresourcierten Sprache. Wir erstellen eine Open-Source-Korpus mit insgesamt 10.008 Rezensionen aus 566 Online-Threads zu den Themen Sport, Essen, Software, Politik und Unterhaltung. Zielsetzung dieser Arbeit ist zweifach: (a) die Erstellung eines menschlich annotierten Korpus zur Forschung im Bereich der Sentimentanalyse in Urdu; und (b) die Bewertung aktueller Modellleistungen anhand dieses Korpus. Zur Bewertung führen wir binäre und ternäre Klassifikationsstudien durch, wobei wir verschiedene Modelle einsetzen: Long Short-Term Memory (LSTM), rekurrentes konvolutionales neuronales Netzwerk (RCNN), regelbasierte Ansätze, N-Gramme, Support Vector Machine (SVM) sowie konvolutionale neuronale Netze (CNN) und LSTM. Das RCNN-Modell erreicht dabei mit einer Genauigkeit von 84,98 % bei binärer Klassifikation und 68,56 % bei ternärer Klassifikation die besten Ergebnisse im Vergleich zu Standardmodellen. Um anderen Forschern in diesem Bereich die Arbeit zu erleichtern, stellen wir das entwickelte Korpus sowie den Quellcode dieser Studie öffentlich zur Verfügung.