BioBERTpt – Ein portugiesisches neuronales Sprachmodell für die klinische Benennung von Entitäten

Mit der zunehmenden Menge an elektronischen Gesundheitsakten gewinnen klinische NLP-Aufgaben an Bedeutung, um wertvolle Informationen aus unstrukturiertem klinischem Text zu erschließen. Obwohl die Leistungsfähigkeit von NLP-Aufgaben im Nachfeld, wie der Namenerkennung (Named-Entity Recognition, NER), in englischsprachigen Korpora durch kontextuelle Sprachmodelle in letzter Zeit erheblich gesteigert wurde, gibt es vergleichsweise wenig Forschung zu klinischen Texten in sprachlich unterversorgten Sprachen. Ziel unserer Arbeit ist es, ein tiefes kontextuelles Embedding-Modell für Portugiesisch, das sogenannte BioBERTpt, zu bewerten, um die Unterstützung bei klinischen und biomedizinischen NER-Aufgaben zu verbessern. Wir transferieren die in einem multilingualen BERT-Modell erlernten Informationen auf Korpora klinischer Erzählungen und biomedizinischer wissenschaftlicher Arbeiten im Brasilianischen Portugiesisch. Zur Bewertung der Leistungsfähigkeit von BioBERTpt führten wir NER-Experimente auf zwei annotierten Korpora mit klinischen Narrativen durch und verglichen die Ergebnisse mit bestehenden BERT-Modellen. Unser domänenspezifisches Modell erreichte im F1-Score eine Verbesserung gegenüber der Baseline um 2,72 % und zeigte eine höhere Genauigkeit bei 11 von 13 untersuchten Entitäten. Wir zeigen, dass die Erweiterung kontextueller Embedding-Modelle mit fachspezifischer Literatur eine wichtige Rolle bei der Verbesserung der Leistungsfähigkeit für bestimmte NLP-Aufgaben spielen kann. Der Transferlernen-Prozess verbesserte das portugiesische biomedizinische NER-Modell, indem er die Abhängigkeit von gelabelten Daten verringerte und den Bedarf an der vollständigen Neuentwicklung und -trainierung eines neuen Modells reduzierte.