Verbesserung biomedizinischer vortrainierter Sprachmodelle durch Wissen

Vortrainierte Sprachmodelle haben in vielen Aufgaben des natürlichen Sprachverstehens gezeigt, dass sie erfolgreich sind. Zahlreiche Arbeiten untersuchen die Integration von Wissen in Sprachmodelle. Im biomedizinischen Bereich haben Experten Jahrzehnte lang an der Erstellung umfangreicher Wissensbasen gearbeitet. Beispielsweise enthält das Unified Medical Language System (UMLS) Millionen von Entitäten mit ihren Synonymen und definiert Hunderte von Beziehungen zwischen diesen Entitäten. Die Nutzung dieses Wissens kann eine Vielzahl von nachgeschalteten Aufgaben wie die Namensentitäten-Erkennung (Named Entity Recognition, NER) und die Relationsextraktion unterstützen. Dementsprechend stellen wir KeBioLM vor, ein biomedizinisches vortrainiertes Sprachmodell, das gezielt Wissen aus den UMLS-Wissensbasen nutzt. Konkret extrahieren wir Entitäten aus PubMed-Abstracts und verknüpfen sie mit UMLS. Anschließend trainieren wir ein wissensorientiertes Sprachmodell, das zunächst eine textbasierte Kodierungsschicht verwendet, um Entitätenrepräsentationen zu lernen, und anschließend eine Text-Entität-Fusionskodierung anwendet, um die Entitätenrepräsentationen zu aggregieren. Zusätzlich integrieren wir zwei Trainingsziele: die Entitäten-Detektion und die Entitäten-Verknüpfung. Experimente auf dem BLURB-Benchmark für Namensentitäten-Erkennung und Relationsextraktion belegen die Wirksamkeit unseres Ansatzes. Eine weitere Analyse anhand eines selbst zusammengestellten Untersuchungsdatensatzes zeigt, dass unser Modell eine bessere Fähigkeit zur Modellierung medizinischen Wissens besitzt.