HyperAIHyperAI

Command Palette

Search for a command to run...

Robuste benannte Entitätserkennung mit Truecasing-Vortrainierung

Stephen Mayhew Nitish Gupta Dan Roth

Zusammenfassung

Obwohl moderne Named Entity Recognition (NER)-Systeme auf Standard-Datensätzen beeindruckende Leistungen erzielen, verhalten sie sich bei rauschhaften Daten erheblich schlechter. Insbesondere stellt die Großschreibung in vielen Sprachen ein starkes Signal für Entitäten dar, und selbst state-of-the-art-Modelle neigen dazu, sich übermäßig an dieses Merkmal anzupassen, wodurch ihre Leistung auf textarmen, nicht großgeschriebenen Texten stark abnimmt. In dieser Arbeit greifen wir das Problem der Robustheit von NER-Systemen in Daten mit rauschhafter oder unsicherer Großschreibung an, indem wir ein Vortrainingsziel einführen, das die Großschreibung in Texten vorhersagt, also einen sogenannten Truecaser nutzt, und dabei unlabeled Daten ausnutzt. Der vortrainierte Truecaser wird mit einem herkömmlichen BiLSTM-CRF-Modell für NER kombiniert, indem die Ausgabeverteilungen an die Zeicheneingaben angehängt werden. In Experimenten an mehreren Datensätzen unterschiedlicher Domäne und Qualität der Großschreibung zeigen wir, dass unser neues Modell die Leistung auf nicht großgeschriebenen Texten verbessert – sogar bei bereits unkapitalisierten BERT-Einbettungen einen zusätzlichen Nutzen bringt. Unser Ansatz erreicht eine neue state-of-the-art-Leistung auf dem WNUT17-Shared-Task-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Robuste benannte Entitätserkennung mit Truecasing-Vortrainierung | Paper | HyperAI