CrossWeigh: Trainieren eines Named-Entity-Tags aus unvollständigen Annotationen

Jeder macht Fehler. Auch menschliche Annotatoren machen Fehler bei der Erstellung von Labels für die Named Entity Recognition (NER). Solche Label-Fehler können das Modelltraining beeinträchtigen und Modellvergleiche verfälschen. In dieser Studie untersuchen wir eines der weit verbreiteten NER-Benchmark-Datensätze, den CoNLL03 NER. Wir können Label-Fehler in etwa 5,38 % der Testsätze identifizieren, was eine erhebliche Rate ist, wenn man bedenkt, dass der state-of-the-art Test F1-Score bereits um die 93 % liegt. Daher korrigieren wir diese Label-Fehler manuell und erstellen einen saubereren Testdatensatz. Die erneute Bewertung gängiger Modelle auf diesem korrigierten Testdatensatz führt zu genauereren Einschätzungen im Vergleich zu denen auf dem ursprünglichen Testdatensatz. Noch wichtiger ist, dass wir ein einfaches aber effektives Framework namens CrossWeigh vorschlagen, um Label-Fehler während des Trainings von NER-Modellen zu behandeln. Genauer gesagt unterteilt es die Trainingsdaten in mehrere Folds und trainiert unabhängige NER-Modelle, um potenzielle Fehler in jedem Fold zu identifizieren. Anschließend passt es die Gewichte der Trainingsdaten entsprechend an, um das endgültige NER-Modell zu trainieren. Ausführliche Experimente zeigen signifikante Verbesserungen durch das Einbinden verschiedener NER-Modelle in unser vorgeschlagenes Framework auf drei Datensätzen. Alle Implementierungen und der korrigierte Testdatensatz sind in unserem Github-Repository verfügbar: https://github.com/ZihanWangKi/CrossWeigh.