HyperAIHyperAI
vor 17 Tagen

Fokussierung auf potenzielle benannte Entitäten während der aktiven Etikettenerfassung

Ali Osman Berk Sapci, Oznur Tastan, Reyyan Yeniterzi
Fokussierung auf potenzielle benannte Entitäten während der aktiven Etikettenerfassung
Abstract

Die Named-Entity-Recognition (NER) hat zum Ziel, in unstrukturiertem Text vorkommende Namensentitäten zu identifizieren und in vordefinierte Entitätsklassen einzuteilen. Obwohl tiefenlernbasierte vortrainierte Sprachmodelle gute Vorhersageleistungen in der NER erzielen helfen, sind viele anwendungsbezogene NER-Anwendungen weiterhin auf eine erhebliche Menge an gelabelten Daten angewiesen. Active Learning (AL), ein allgemeiner Rahmen für das Problem der Labelakquise, wird für NER-Aufgaben eingesetzt, um die Anmerkungskosten zu minimieren, ohne die Modellleistung zu beeinträchtigen. Allerdings stellen die stark ungleichmäßigen Klassenverteilungen der Tokens bei der Entwicklung effektiver AL-Abfrageverfahren für NER erhebliche Herausforderungen dar. Wir schlagen mehrere AL-Satzabfrage-Evaluationsfunktionen vor, die stärker auf potenziell positive Tokens achten, und evaluieren diese vorgeschlagenen Funktionen unter Verwendung sowohl von satzbasierter als auch von tokenbasierter Kostenbewertungsstrategie. Zudem präsentieren wir einen verbesserten datengetriebenen Normalisierungsansatz, der Sätze, die zu lang oder zu kurz sind, bestrafen. Unsere Experimente an drei Datensätzen aus unterschiedlichen Domänen zeigen, dass der vorgeschlagene Ansatz die Anzahl der annotierten Tokens reduziert, während gleichzeitig eine bessere oder vergleichbare Vorhersageleistung im Vergleich zu herkömmlichen Methoden erreicht wird.