HyperAIHyperAI

Command Palette

Search for a command to run...

Arabisches Mehr-Dialekt-Segmentierung: bi-LSTM-CRF im Vergleich zu SVM

Mohamed Eldesouki Younes Samih Ahmed Abdelali Mohammed Attia Hamdy Mubarak Kareem Darwish Laura Kallmeyer

Zusammenfassung

Die Segmentierung arabischer Wörter ist für eine Vielzahl von Anwendungen im Bereich der natürlichsprachlichen Verarbeitung (NLP), wie maschinelle Übersetzung und Informationsabruf, essenziell. Die Segmentierung beinhaltet das Zerlegen von Wörtern in ihre Bestandteile, nämlich Stämme, Affixe und Klitika. In dieser Arbeit vergleichen wir zwei Ansätze zur Segmentierung von vier wichtigen arabischen Dialekten, wobei jeweils nur einige Tausend Trainingsbeispiele pro Dialekt verwendet werden. Die beiden Ansätze stellen das Problem einerseits als Rangierungsproblem dar, bei dem ein SVM-Ranker die beste Segmentierung auswählt, und andererseits als Sequenzmarkierungsproblem, bei dem ein bi-LSTM RNN in Kombination mit CRF bestimmt, wo die Wörter am besten segmentiert werden sollten. Wir können solide Segmentierungsergebnisse für alle Dialekte erzielen, obwohl wir relativ begrenzte Trainingsdaten verwenden. Darüber hinaus zeigen wir, dass die Nutzung von Daten des modernen Standardarabisch für die Domänenanpassung und die Annahme der Kontextunabhängigkeit die Gesamtergebnisse verbessern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp