vor 11 Tagen

DaCy: Ein einheitlicher Rahmen für die dänische NLP

Kenneth Enevoldsen, Lasse Hansen, Kristoffer Nielbo

Abstract

In den letzten Jahren konnten dänische Natural Language Processing (NLP)-Systeme erhebliche Fortschritte erzielen, insbesondere durch die Einführung mehrerer neuer Datensätze und Modelle. Derzeit existiert jedoch kein kohärentes Framework zur Anwendung von state-of-the-art-Modellen für die dänische Sprache. Wir präsentieren DaCy: ein einheitliches Framework für dänisches NLP, das auf SpaCy basiert. DaCy nutzt effiziente Multitask-Modelle, die state-of-the-art-Leistung bei der Namensentitäts-Erkennung, Part-of-Speech-Tagging und Abhängigkeitsanalyse erzielen. Das Framework enthält Tools zur einfachen Integration bestehender Modelle, beispielsweise für Polarisierung, Emotions- oder Subjektivitätserkennung. Zudem führen wir eine Reihe von Tests zur Bias- und Robustheitsevaluation dänischer NLP-Pipelines durch, indem wir den Testdatensatz von DaNE augmentieren. DaCy Large zeigt sich gegenüber anderen Modellen besonders robust gegenüber langen Eingabewörtern sowie Rechtschreibvariationen und -fehlern. Alle Modelle außer DaCy Large weisen erhebliche Bias-Effekte im Zusammenhang mit Ethnizität auf, während nur Polyglot einen signifikanten Geschlechtsbias aufweist. Wir argumentieren, dass für Sprachen mit begrenzten Benchmark-Sets die Daten-Augmentation besonders nützlich sein kann, um realistischere und feinere Leistungsschätzungen zu erhalten. Wir stellen eine Reihe von Augmentern bereit, als erster Schritt hin zu einer umfassenderen Evaluation von Sprachmodellen für Sprachen mit geringen und mittleren Ressourcen, und fordern weitere Entwicklungen in dieser Richtung heraus.