HyperAIHyperAI

Command Palette

Search for a command to run...

CrossWeigh: Trainieren eines Named-Entity-Tags aus unvollständigen Annotationen

Zihan Wang; Jingbo Shang; Liyuan Liu; Lihao Lu; Jiacheng Liu; Jiawei Han

Zusammenfassung

Jeder macht Fehler. Auch menschliche Annotatoren machen Fehler bei der Erstellung von Labels für die Named Entity Recognition (NER). Solche Label-Fehler können das Modelltraining beeinträchtigen und Modellvergleiche verfälschen. In dieser Studie untersuchen wir eines der weit verbreiteten NER-Benchmark-Datensätze, den CoNLL03 NER. Wir können Label-Fehler in etwa 5,38 % der Testsätze identifizieren, was eine erhebliche Rate ist, wenn man bedenkt, dass der state-of-the-art Test F1-Score bereits um die 93 % liegt. Daher korrigieren wir diese Label-Fehler manuell und erstellen einen saubereren Testdatensatz. Die erneute Bewertung gängiger Modelle auf diesem korrigierten Testdatensatz führt zu genauereren Einschätzungen im Vergleich zu denen auf dem ursprünglichen Testdatensatz. Noch wichtiger ist, dass wir ein einfaches aber effektives Framework namens CrossWeigh vorschlagen, um Label-Fehler während des Trainings von NER-Modellen zu behandeln. Genauer gesagt unterteilt es die Trainingsdaten in mehrere Folds und trainiert unabhängige NER-Modelle, um potenzielle Fehler in jedem Fold zu identifizieren. Anschließend passt es die Gewichte der Trainingsdaten entsprechend an, um das endgültige NER-Modell zu trainieren. Ausführliche Experimente zeigen signifikante Verbesserungen durch das Einbinden verschiedener NER-Modelle in unser vorgeschlagenes Framework auf drei Datensätzen. Alle Implementierungen und der korrigierte Testdatensatz sind in unserem Github-Repository verfügbar: https://github.com/ZihanWangKi/CrossWeigh.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp