BioRED: Ein umfassender Datensatz zur Extraktion biomedizinischer Beziehungen

Die automatische Relationsextraktion (RE) aus biomedizinischer Literatur ist für viele nachgelagerte Textmining-Anwendungen sowohl in der Forschung als auch in praktischen Anwendungsszenarien von entscheidender Bedeutung. Die meisten vorhandenen Benchmark-Datensätze für die biomedizinische RE konzentrieren sich jedoch nur auf Relationen eines einzigen Typs (z.B. Protein-Protein-Interaktionen) auf Satzebene, was die Entwicklung von RE-Systemen in der Biomedizin erheblich einschränkt. In dieser Arbeit führen wir zunächst gängige Datensätze für Named Entity Recognition (NER) und RE im Überblick. Anschließend stellen wir BioRED vor, den ersten biomedizinischen RE-Korpus mit mehreren Entitätstypen (z.B. Gen/Protein, Krankheit, Chemikalie) und Relationspaaren (z.B. Gen-Krankheit; Chemikalie-Chemikalie) auf Dokumentenebene, basierend auf einer Menge von 600 PubMed-Zusammenfassungen. Darüber hinaus klassifizieren wir jede Relation als Beschreibung eines neuen Erkenntnisses oder bereits bekannter Hintergrundwissen, was es automatisierten Algorithmen ermöglicht, zwischen neuen und bekannten Informationen zu differenzieren. Wir bewerten die Nutzbarkeit von BioRED durch das Benchmarking verschiedener bestehender state-of-the-art-Methoden, darunter BERT-basierte Modelle, bei den Aufgaben der NER und RE. Unsere Ergebnisse zeigen, dass bestehende Ansätze hohe Leistungen bei der NER-Aufgabe erreichen können (F-Wert von 89,3 %), während bei der RE-Aufgabe noch viel Verbesserungspotential besteht, insbesondere bei der Extraktion neuer Relationen (F-Wert von 47,7 %). Unsere Experimente belegen zudem, dass ein solcher reichhaltiger Datensatz die Entwicklung genauerer, effizienterer und robusterer RE-Systeme für die Biomedizin erfolgreich fördern kann. Der BioRED-Datensatz und die Annotationrichtlinien sind frei verfügbar unter https://ftp.ncbi.nlm.nih.gov/pub/lu/BioRED/.