Das CMU METAL-Farsi-NLP-Ansatz
Obwohl für die Analyse großer Sprachen wie Englisch zahlreiche hochwertige Tools zur Verfügung stehen, sind vergleichbare, frei verfügbare Werkzeuge für wichtige, jedoch unterressourcierte Sprachen wie Farsi schwieriger zu beschaffen und in eine nutzbare NLP-Oberfläche zu integrieren. In diesem Beitrag stellen wir eine präzise und effiziente Farsi-Analyse-Oberfläche vor, die wir zusammengestellt haben und die für andere, die mit geschriebenem Farsi arbeiten möchten, von Nutzen sein könnte. Zu den bereits existierenden Komponenten und Ressourcen, die wir integriert haben, gehören der Carnegie Mellon TurboParser und TurboTagger (Martins et al., 2010), trainiert auf dem Dadegan Treebank (Rasooli et al., 2013), der Uppsala Farsi-Textnormalisierer PrePer (Seraji, 2013), der Uppsala Farsi-Tokenizer (Seraji et al., 2012a) sowie PerStem von Jon Dehdari (Jadidinejad et al., 2010). Diese Werkzeugkombination (ergänzt um zusätzliche von uns entwickelte und frei zugängliche Normalisierungs- und Tokenisierungsmoduln) erreicht auf einem getrennten Testdatensatz für die Abhängigkeitsanalyse einen bewerteten Anhangs-Score (labeled attachment score) von 89,49 %, einen unbeschrifteten Anhangs-Score (unlabeled attachment score) von 92,19 % sowie eine Label-Akkuratesse von 91,38 %. Alle verwendeten Komponenten und Ressourcen sind frei verfügbar. Neben der Beschreibung der einzelnen Komponenten und Ressourcen erläutern wir auch die Begründung für unsere Auswahlentscheidungen.