Regularisierung für die Erkennung langer benannter Entitäten

Bei der Erkennung benannter Entitäten (Named Entity Recognition, NER) ist die Länge von Entitäten variabel und hängt von einem spezifischen Anwendungsgebiet oder Datensatz ab. Vortrainierte Sprachmodelle (Pre-trained Language Models, PLMs) werden häufig zur Lösung von NER-Aufgaben eingesetzt und neigen dazu, Bias gegenüber Mustern im Datensatz zu entwickeln, beispielsweise hinsichtlich Längenstatistiken, Oberflächenformen und verzerrter Klassenverteilung. Diese Bias beeinträchtigen die Generalisierungsfähigkeit der PLMs, die erforderlich ist, um viele im Echtzeitbetrieb nicht bekannte Entitäten zuverlässig zu erkennen. Wir stellen eine neue Entbiasing-Methode namens RegLER vor, um die Vorhersagegenauigkeit für Entitäten unterschiedlicher Länge zu verbessern. Um die Lücke zwischen Evaluation und realen Anwendungsszenarien zu schließen, evaluieren wir PLMs auf partitionierten Benchmark-Datensätzen, die unsichtbare Entitäten enthalten. Hier zeigt RegLER eine signifikante Verbesserung bei langen Entitäten, insbesondere durch Entbiasing von Verknüpfungen oder Sonderzeichen innerhalb von Entitäten. Darüber hinaus besteht in den meisten NER-Datensätzen ein gravierender Klassenungleichgewicht, wodurch einfache Negative-Beispiele während des Trainings dominieren, wie beispielsweise das Wort „The“. Unser Ansatz verringert die Auswirkung solcher einfachen Negativbeispiele und mildert so die verzerrte Klassenverteilung. Umfassende Experimente in biomedizinischen und allgemeinen Anwendungsbereichen belegen die Generalisierungsfähigkeit unseres Verfahrens. Um Reproduzierbarkeit und zukünftige Forschung zu fördern, veröffentlichen wir unseren Quellcode unter: https://github.com/minstar/RegLER