HyperAIHyperAI

Command Palette

Search for a command to run...

Fokussierung auf potenzielle benannte Entitäten während der aktiven Etikettenerfassung

Ali Osman Berk Sapci Oznur Tastan Reyyan Yeniterzi

Zusammenfassung

Die Named-Entity-Recognition (NER) hat zum Ziel, in unstrukturiertem Text vorkommende Namensentitäten zu identifizieren und in vordefinierte Entitätsklassen einzuteilen. Obwohl tiefenlernbasierte vortrainierte Sprachmodelle gute Vorhersageleistungen in der NER erzielen helfen, sind viele anwendungsbezogene NER-Anwendungen weiterhin auf eine erhebliche Menge an gelabelten Daten angewiesen. Active Learning (AL), ein allgemeiner Rahmen für das Problem der Labelakquise, wird für NER-Aufgaben eingesetzt, um die Anmerkungskosten zu minimieren, ohne die Modellleistung zu beeinträchtigen. Allerdings stellen die stark ungleichmäßigen Klassenverteilungen der Tokens bei der Entwicklung effektiver AL-Abfrageverfahren für NER erhebliche Herausforderungen dar. Wir schlagen mehrere AL-Satzabfrage-Evaluationsfunktionen vor, die stärker auf potenziell positive Tokens achten, und evaluieren diese vorgeschlagenen Funktionen unter Verwendung sowohl von satzbasierter als auch von tokenbasierter Kostenbewertungsstrategie. Zudem präsentieren wir einen verbesserten datengetriebenen Normalisierungsansatz, der Sätze, die zu lang oder zu kurz sind, bestrafen. Unsere Experimente an drei Datensätzen aus unterschiedlichen Domänen zeigen, dass der vorgeschlagene Ansatz die Anzahl der annotierten Tokens reduziert, während gleichzeitig eine bessere oder vergleichbare Vorhersageleistung im Vergleich zu herkömmlichen Methoden erreicht wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Fokussierung auf potenzielle benannte Entitäten während der aktiven Etikettenerfassung | Paper | HyperAI