HyperAIHyperAI
vor 17 Tagen

Robuste benannte Entitätserkennung mit Truecasing-Vortrainierung

Stephen Mayhew, Nitish Gupta, Dan Roth
Robuste benannte Entitätserkennung mit Truecasing-Vortrainierung
Abstract

Obwohl moderne Named Entity Recognition (NER)-Systeme auf Standard-Datensätzen beeindruckende Leistungen erzielen, verhalten sie sich bei rauschhaften Daten erheblich schlechter. Insbesondere stellt die Großschreibung in vielen Sprachen ein starkes Signal für Entitäten dar, und selbst state-of-the-art-Modelle neigen dazu, sich übermäßig an dieses Merkmal anzupassen, wodurch ihre Leistung auf textarmen, nicht großgeschriebenen Texten stark abnimmt. In dieser Arbeit greifen wir das Problem der Robustheit von NER-Systemen in Daten mit rauschhafter oder unsicherer Großschreibung an, indem wir ein Vortrainingsziel einführen, das die Großschreibung in Texten vorhersagt, also einen sogenannten Truecaser nutzt, und dabei unlabeled Daten ausnutzt. Der vortrainierte Truecaser wird mit einem herkömmlichen BiLSTM-CRF-Modell für NER kombiniert, indem die Ausgabeverteilungen an die Zeicheneingaben angehängt werden. In Experimenten an mehreren Datensätzen unterschiedlicher Domäne und Qualität der Großschreibung zeigen wir, dass unser neues Modell die Leistung auf nicht großgeschriebenen Texten verbessert – sogar bei bereits unkapitalisierten BERT-Einbettungen einen zusätzlichen Nutzen bringt. Unser Ansatz erreicht eine neue state-of-the-art-Leistung auf dem WNUT17-Shared-Task-Datensatz.