Domänenspezifische BERT-Darstellung für die Erkennung benannter Entitäten in Laborprotokollen

Supervisierte Modelle, die darauf trainiert wurden, Eigenschaften aus Darstellungen vorherzusagen, erreichen auf einer Vielzahl von Aufgaben hohe Genauigkeit. Beispielsweise funktioniert die BERT-Familie bei nachgeschalteten Aufgaben – von der NER-Tagging bis hin zu einer Reihe weiterer sprachlicher Aufgaben – besonders gut. Doch das Vokabular im medizinischen Bereich enthält eine große Anzahl an spezifischen Tokens, die ausschließlich im medizinischen Sektor verwendet werden, wie beispielsweise Namen verschiedener Krankheiten, Geräte, Organismen, Medikamente usw. Dies erschwert es traditionellen BERT-Modellen, kontextuelle Embeddings effektiv zu generieren. In diesem Paper präsentieren wir ein System zur Named Entity Tagging basierend auf Bio-BERT. Die experimentellen Ergebnisse zeigen, dass unser Modell im Vergleich zur Baseline erhebliche Verbesserungen erzielt und sowohl den vierten Platz hinsichtlich des F1-Scores belegt – lediglich 2,21 F1-Punkte hinter dem Besten – als auch den ersten Platz hinsichtlich der Recall-Rate erreicht.