vor 17 Tagen

T-NER: Eine Allzweck-Python-Bibliothek für transformerbasierte benannte Entitätsenerkennung

Asahi Ushio, Jose Camacho-Collados

Abstract

Die Vortrainierung von Sprachmodellen (Language Models, LM) hat kontinuierliche Verbesserungen bei zahlreichen Aufgaben der natürlichen Sprachverarbeitung (NLP) hervorgerufen, darunter auch der Namensentitätserkennung (Named Entity Recognition, NER). In diesem Artikel stellen wir T-NER (Transformer-basierte Namensentitätserkennung) vor – eine Python-Bibliothek für das Fine-Tuning von LM auf NER-Aufgaben. Neben ihrer praktischen Anwendbarkeit ermöglicht T-NER zudem die Untersuchung der generalisierenden Fähigkeit von LMs in Bezug auf unterschiedliche Domänen und Sprachen, die durch Fine-Tuning auf NER-Daten erzielt wird. Unser Werkzeug bietet zudem eine Webanwendung, über die Nutzer interaktiv Vorhersagen von Modellen für beliebige Texte abrufen können, was eine qualitative Modellbewertung auch für nicht-expertise Programmierer erleichtert. Wir demonstrieren das Potenzial der Bibliothek, indem wir neun öffentliche NER-Datensätze in ein einheitliches Format konvertieren und deren Leistung im Hinblick auf cross-domain- und cross-linguale Generalisierung evaluieren. Die Ergebnisse unserer ersten Experimente zeigen, dass die Leistung innerhalb der jeweiligen Domäne über alle Datensätze hinweg im Allgemeinen konkurrenzfähig ist. Dennoch ist die cross-domain-Generalisierung selbst bei großen vortrainierten LMs herausfordernd; diese besitzen jedoch die Kapazität, domänenspezifische Merkmale zu lernen, wenn sie auf einer kombinierten Datensatzmenge fine-tuned werden. Um zukünftige Forschung zu unterstützen, stellen wir zudem alle unsere LM-Checkpoint-Dateien über die Hugging Face Model Hub zur Verfügung.