HyperAIHyperAI
vor 17 Tagen

Verbesserung der biomedizinischen Relationsextraktion mit Transformer-Modellen unter Verwendung von kürzesten Abhängigkeitspfadmerkmalen und Tripelinformation

{Fabio Rinaldi, Vani Kanjirangat}
Abstract

Die Extraktion von Entitätsbeziehungen spielt eine zentrale Rolle in den Bereichen Biomedizin, Gesundheitsforschung und klinische Forschung. In jüngster Zeit haben vortrainierte Modelle auf Basis von Transformer-Architekturen und deren Varianten bemerkenswerte Leistungen in verschiedenen Aufgaben des natürlichen Sprachverstehens erzielt. Die meisten dieser Varianten basieren auf geringfügigen Modifikationen an den architektonischen Komponenten, Darstellungsschemata sowie der Datenvervollständigung mittels Distant-Supervision-Methoden. Bei Distant-Supervision-Verfahren stellt eine der zentralen Herausforderungen die Reduktion von Rauschproben dar. Ein ähnliches Problem tritt auf, wenn die Trainingsbeispiele nicht direkt verfügbar sind, sondern aus dem gegebenen Datensatz konstruiert werden müssen. Die BioCreative V Chemical-Disease-Relation-(CDR)-Aufgabe bietet ein Datenset, das keine expliziten Gold-Anmerkungen auf Erwähnungsebene bereitstellt und somit die oben beschriebene Situation repliziert. Die Auswahl repräsentativer Sätze aus den gegebenen Abstracts oder Dokumenten, die eine potenzielle Entitätsbeziehung vermitteln, wird daher entscheidend. Die meisten existierenden Ansätze in der Literatur schlagen vor, entweder den gesamten Text oder alle Sätze, die Entitäts-Erwähnungen enthalten, zu berücksichtigen. Dies kann jedoch rechenintensiv und zeitaufwändig sein. In diesem Artikel präsentieren wir einen neuen Ansatz zur Bewältigung solcher Szenarien, insbesondere in der biomedizinischen Beziehungsextraktion. Wir schlagen vor, Merkmale des kürzesten Abhängigkeitspfads (Shortest Dependency Path, SDP) zu nutzen, um Datenproben zu konstruieren, indem rauschhafte Informationen entfernt und die repräsentativsten Proben für das Modelltraining ausgewählt werden. Zudem integrieren wir Triplet-Informationen im Lernprozess mittels der biomedizinischen Variante von BERT, bekannt als BioBERT. Das Problem wird als Aufgabe der Paar-Satz-Klassifikation formuliert, wobei der Satz und das Entitäts-Beziehungspaar als Eingabe dienen. Wir analysieren unseren Ansatz sowohl für relationale Beziehungen innerhalb einer Satzgrenze (intra-sentential) als auch zwischen Sätzen (inter-sentential) am CDR-Datensatz. Die vorgeschlagene Methode, die SDP- und Triplet-Merkmale nutzt, zeigt vielversprechende Ergebnisse, insbesondere bei der Extraktion inter-sententialer Beziehungen. Den für diese Arbeit verwendeten Code stellen wir öffentlich auf GitHub zur Verfügung.