HyperAIHyperAI
vor 2 Monaten

Vergleich und Kombination einiger beliebter NER-Ansätze in der Biomedizin

Harsh Verma; Sabine Bergler; Narjesossadat Tahaei
Vergleich und Kombination einiger beliebter NER-Ansätze in der Biomedizin
Abstract

Wir vergleichen drei einfache und weit verbreitete Ansätze für die Named Entity Recognition (NER): 1) SEQ (Sequenzmarkierung mit einem linearen Token-Klassifizierer), 2) SeqCRF (Sequenzmarkierung mit Conditional Random Fields [CRF]), und 3) SpanPred (Span-Vorhersage mit Grenz-Token-Embeddings). Die Vergleiche werden anhand von vier biomedizinischen NER-Aufgaben durchgeführt: GENIA, NCBI-Disease, LivingNER (Spanisch) und SocialDisNER (Spanisch). Das SpanPred-Modell zeigt eine Stand-of-the-Art-Leistung bei LivingNER und SocialDisNER, wobei es den F1-Score um 1,3 bzw. 0,6 verbessert. Das SeqCRF-Modell zeigt ebenfalls eine Stand-of-the-Art-Leistung bei LivingNER und SocialDisNER, wobei es den F1-Score um 0,2 bzw. 0,7 verbessert. Das SEQ-Modell ist auf dem LivingNER-Datensatz wettbewerbsfähig mit der aktuellen Bestleistung. Wir untersuchen einige einfache Methoden zur Kombination der drei Ansätze. Wir stellen fest, dass Mehrheitsentscheidung konsistent hohe Präzision und einen hohen F1-Score auf allen vier Datensätzen erzielt. Schließlich implementieren wir ein System, das lernt, die Vorhersagen von SEQ und SpanPred zu kombinieren, wodurch Systeme entstehen, die konsistent hohe Recall-Raten und einen hohen F1-Score auf allen vier Datensätzen erzielen. Bei dem GENIA-Datensatz finden wir heraus, dass unser gelerntes Kombinationssystem die F1-Score (+1,2) und die Recall-Rate (+2,1) signifikant erhöht im Vergleich zu den kombinierten Systemen. Wir stellen den gesamten gut dokumentierten Code bereit, der notwendig ist, um alle Systeme nachzubilden: https://github.com/flyingmothman/bionlp.

Vergleich und Kombination einiger beliebter NER-Ansätze in der Biomedizin | Neueste Forschungsarbeiten | HyperAI