HyperAIHyperAI

Command Palette

Search for a command to run...

Regularisierung für die Erkennung langer benannter Entitäten

Minbyul Jeong Jaewoo Kang

Zusammenfassung

Bei der Erkennung benannter Entitäten (Named Entity Recognition, NER) ist die Länge von Entitäten variabel und hängt von einem spezifischen Anwendungsgebiet oder Datensatz ab. Vortrainierte Sprachmodelle (Pre-trained Language Models, PLMs) werden häufig zur Lösung von NER-Aufgaben eingesetzt und neigen dazu, Bias gegenüber Mustern im Datensatz zu entwickeln, beispielsweise hinsichtlich Längenstatistiken, Oberflächenformen und verzerrter Klassenverteilung. Diese Bias beeinträchtigen die Generalisierungsfähigkeit der PLMs, die erforderlich ist, um viele im Echtzeitbetrieb nicht bekannte Entitäten zuverlässig zu erkennen. Wir stellen eine neue Entbiasing-Methode namens RegLER vor, um die Vorhersagegenauigkeit für Entitäten unterschiedlicher Länge zu verbessern. Um die Lücke zwischen Evaluation und realen Anwendungsszenarien zu schließen, evaluieren wir PLMs auf partitionierten Benchmark-Datensätzen, die unsichtbare Entitäten enthalten. Hier zeigt RegLER eine signifikante Verbesserung bei langen Entitäten, insbesondere durch Entbiasing von Verknüpfungen oder Sonderzeichen innerhalb von Entitäten. Darüber hinaus besteht in den meisten NER-Datensätzen ein gravierender Klassenungleichgewicht, wodurch einfache Negative-Beispiele während des Trainings dominieren, wie beispielsweise das Wort „The“. Unser Ansatz verringert die Auswirkung solcher einfachen Negativbeispiele und mildert so die verzerrte Klassenverteilung. Umfassende Experimente in biomedizinischen und allgemeinen Anwendungsbereichen belegen die Generalisierungsfähigkeit unseres Verfahrens. Um Reproduzierbarkeit und zukünftige Forschung zu fördern, veröffentlichen wir unseren Quellcode unter: https://github.com/minstar/RegLER


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Regularisierung für die Erkennung langer benannter Entitäten | Paper | HyperAI