AraBERT: Transformer-basiertes Modell für das Verständnis der arabischen Sprache

Die arabische Sprache ist eine morphologisch reiche Sprache mit vergleichsweise geringen Ressourcen und einer weniger erforschten Syntax im Vergleich zu Englisch. Angesichts dieser Herausforderungen erweisen sich arabische Aufgaben im Bereich der natürlichen Sprachverarbeitung (Natural Language Processing, NLP), wie z. B. Sentimentanalyse (Sentiment Analysis, SA), Erkennung benannter Entitäten (Named Entity Recognition, NER) und Fragebeantwortung (Question Answering, QA), als äußerst herausfordernd. In jüngster Zeit haben mit dem Aufkommen transformer-basierter Modelle sprachspezifische BERT-Modelle, die auf großen Korpora vortrainiert wurden, sich als äußerst effizient bei der Sprachverstehensaufgabe erwiesen. Diese Modelle konnten neue Standards setzen und state-of-the-art-Ergebnisse für die meisten NLP-Aufgaben erzielen. In diesem Artikel präsentieren wir ein speziell für die arabische Sprache vortrainiertes BERT-Modell, AraBERT, mit dem wir das gleiche Maß an Erfolg anstreben, das BERT für die englische Sprache erreicht hat. Die Leistungsfähigkeit von AraBERT wird mit multilingualem BERT von Google sowie anderen state-of-the-art-Ansätzen verglichen. Die Ergebnisse zeigen, dass das neu entwickelte AraBERT-Modell auf den meisten getesteten arabischen NLP-Aufgaben state-of-the-art-Leistungen erzielt. Die vortrainierten AraBERT-Modelle sind öffentlich über https://github.com/aub-mind/arabert verfügbar und sollen Forschung und Anwendungen im Bereich der arabischen NLP fördern.