HyperAIHyperAI

Command Palette

Search for a command to run...

Das CMU METAL-Farsi-NLP-Ansatz

Mehdi Manshadi Weston Feely Lori Levin Robert Frederking

Zusammenfassung

Obwohl für die Analyse großer Sprachen wie Englisch zahlreiche hochwertige Tools zur Verfügung stehen, sind vergleichbare, frei verfügbare Werkzeuge für wichtige, jedoch unterressourcierte Sprachen wie Farsi schwieriger zu beschaffen und in eine nutzbare NLP-Oberfläche zu integrieren. In diesem Beitrag stellen wir eine präzise und effiziente Farsi-Analyse-Oberfläche vor, die wir zusammengestellt haben und die für andere, die mit geschriebenem Farsi arbeiten möchten, von Nutzen sein könnte. Zu den bereits existierenden Komponenten und Ressourcen, die wir integriert haben, gehören der Carnegie Mellon TurboParser und TurboTagger (Martins et al., 2010), trainiert auf dem Dadegan Treebank (Rasooli et al., 2013), der Uppsala Farsi-Textnormalisierer PrePer (Seraji, 2013), der Uppsala Farsi-Tokenizer (Seraji et al., 2012a) sowie PerStem von Jon Dehdari (Jadidinejad et al., 2010). Diese Werkzeugkombination (ergänzt um zusätzliche von uns entwickelte und frei zugängliche Normalisierungs- und Tokenisierungsmoduln) erreicht auf einem getrennten Testdatensatz für die Abhängigkeitsanalyse einen bewerteten Anhangs-Score (labeled attachment score) von 89,49 %, einen unbeschrifteten Anhangs-Score (unlabeled attachment score) von 92,19 % sowie eine Label-Akkuratesse von 91,38 %. Alle verwendeten Komponenten und Ressourcen sind frei verfügbar. Neben der Beschreibung der einzelnen Komponenten und Ressourcen erläutern wir auch die Begründung für unsere Auswahlentscheidungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp