HyperAIHyperAI
vor 2 Monaten

Arabisches Mehr-Dialekt-Segmentierung: bi-LSTM-CRF im Vergleich zu SVM

Mohamed Eldesouki; Younes Samih; Ahmed Abdelali; Mohammed Attia; Hamdy Mubarak; Kareem Darwish; Kallmeyer Laura
Arabisches Mehr-Dialekt-Segmentierung: bi-LSTM-CRF im Vergleich zu SVM
Abstract

Die Segmentierung arabischer Wörter ist für eine Vielzahl von Anwendungen im Bereich der natürlichsprachlichen Verarbeitung (NLP), wie maschinelle Übersetzung und Informationsabruf, essenziell. Die Segmentierung beinhaltet das Zerlegen von Wörtern in ihre Bestandteile, nämlich Stämme, Affixe und Klitika. In dieser Arbeit vergleichen wir zwei Ansätze zur Segmentierung von vier wichtigen arabischen Dialekten, wobei jeweils nur einige Tausend Trainingsbeispiele pro Dialekt verwendet werden. Die beiden Ansätze stellen das Problem einerseits als Rangierungsproblem dar, bei dem ein SVM-Ranker die beste Segmentierung auswählt, und andererseits als Sequenzmarkierungsproblem, bei dem ein bi-LSTM RNN in Kombination mit CRF bestimmt, wo die Wörter am besten segmentiert werden sollten. Wir können solide Segmentierungsergebnisse für alle Dialekte erzielen, obwohl wir relativ begrenzte Trainingsdaten verwenden. Darüber hinaus zeigen wir, dass die Nutzung von Daten des modernen Standardarabisch für die Domänenanpassung und die Annahme der Kontextunabhängigkeit die Gesamtergebnisse verbessern.