Vergleich von biomedizinischen Methoden und Modellen zur Extraktion von Beziehungen für die Erstellung von Wissensgraphen

Die biomedizinische Forschung wächst derart exponentiell, dass Wissenschaftler, Forscher und Praktiker nicht mehr in der Lage sind, die Menge an veröffentlichter Literatur in diesem Bereich zu bewältigen. Das in der Literatur enthaltene Wissen muss so systematisiert werden, dass Behauptungen und Hypothesen leicht gefunden, zugänglich gemacht und überprüfbar sind. Wissensgraphen können hierfür einen geeigneten Rahmen für die semantische Repräsentation von Wissen aus der Literatur bieten. Um jedoch einen Wissensgraphen aufzubauen, ist es notwendig, Wissen als Beziehungen zwischen biomedizinischen Entitäten zu extrahieren und sowohl die Entitäten als auch die Beziehungstypen zu normalisieren. In diesem Artikel präsentieren und vergleichen wir mehrere regelbasierte sowie maschinelle Lernansätze (beispielsweise Naive Bayes und Random Forests als Vertreter traditioneller maschineller Lernmethoden sowie DistilBERT, PubMedBERT, T5 und SciFive-basierte Modelle als Beispiele moderner tiefen Lern-Transformers) für eine skalierbare Beziehungsextraktion aus biomedizinischer Literatur und deren Integration in Wissensgraphen. Wir untersuchen, wie robust diese verschiedenen Ansätze gegenüber unbalancierten und vergleichsweise kleinen Datensätzen sind. Unsere Experimente zeigen, dass transformerbasierte Modelle sowohl kleine (aufgrund der Vortrainierung auf großen Datensätzen) als auch unbalancierte Datensätze gut bewältigen können. Das bestperformende Modell war das auf ausgewogenen Daten fine-tunete PubMedBERT-Modell mit einem berichteten F1-Score von 0,92. Das DistilBERT-basierte Modell folgte mit einem F1-Score von 0,89 und zeichnete sich durch eine schnellere Ausführung und geringere Ressourcenanforderungen aus. BERT-basierte Modelle erzielten dabei bessere Ergebnisse als T5-basierte generative Modelle.