FarsTail: Ein persisches Dataset für natürliche Sprachinferenz

Natürliche Sprachinferenz (Natural Language Inference, NLI) gilt als eine der zentralen Aufgaben im Bereich der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) und umfasst zahlreiche grundlegende Aspekte des Sprachverstehens. Angesichts der erheblichen Erfolge datenintensiver tiefen Lernmethoden in NLP-Aufgaben wurde ein erheblicher Forschungsaufwand unternommen, um vielfältigere Datensätze für verschiedene Sprachen zu erstellen. In diesem Artikel präsentieren wir einen neuen Datensatz für die NLI-Aufgabe in der persischen Sprache, auch bekannt als Farsi, die eine der dominierenden Sprachen im Nahen Osten ist. Der Datensatz, benannt als FarsTail, enthält 10.367 Instanzen, die sowohl in persischer Sprache als auch im indizierten Format bereitgestellt werden, um auch Forschern ohne Kenntnisse der persischen Sprache nützlich zu sein. Die Instanzen wurden aus 3.539 Multiple-Choice-Fragen generiert, wobei der Aufwand an menschlicher Annotation so gering wie möglich gehalten wurde, in Anlehnung an den SciTail-Datensatz. Ein sorgfältig gestaltetes mehrstufiges Verfahren wurde angewandt, um die Qualität des Datensatzes sicherzustellen. Zudem geben wir die Ergebnisse traditioneller und state-of-the-art-Methoden auf FarsTail wieder, einschließlich verschiedener Embedding-Methoden wie word2vec, fastText, ELMo, BERT und LASER sowie unterschiedlicher Modellierungsansätze wie DecompAtt, ESIM, HBMP und ULMFiT, um eine solide Basis für zukünftige Forschung zu bieten. Die beste erzielte Testgenauigkeit beträgt 83,38 %, was darauf hinweist, dass erhebliches Verbesserungspotenzial für derzeitige Methoden besteht, um sie für reale Anwendungen in der NLP in verschiedenen Sprachen nutzbar zu machen. Wir untersuchen außerdem, inwieweit die Modelle oberflächliche Hinweise, auch als Datensatz-Bias bekannt, in FarsTail ausnutzen, und unterteilen die Testmenge entsprechend dem Erfolg von voreingenommenen Modellen in leichtere und schwierigere Teilmengen. Der Datensatz ist unter https://github.com/dml-qom/FarsTail verfügbar.