Vom Part-of-Speech-Tagging zum Dependenzparsing für die Extraktion biomedizinischer Ereignisse

Hintergrund: Angesichts der Bedeutung der Extraktion von Beziehungen oder Ereignissen aus biomedizinischen Forschungsveröffentlichungen zur Unterstützung des Wissenscapturing und -synthese, und der starken Abhängigkeit der Ansätze für diese Informationsextraktionsaufgabe von syntaktischen Informationen, ist es wertvoll zu verstehen, welche Ansätze zur syntaktischen Verarbeitung von biomedizinischem Text die höchste Leistung aufweisen. Ergebnisse: Wir führen eine empirische Studie durch, in der wir moderne, auf Merkmalen basierende Modelle und neuronale Netzwerke-basierte Modelle für zwei Kernaufgaben der natürlichsprachlichen Verarbeitung (NLP), nämlich die Part-of-Speech-Tagging (POS-Tagging) und die Dependenzanalyse, anhand zweier Benchmark-Korpora im biomedizinischen Bereich, GENIA und CRAFT, vergleichen. Nach bestem Wissen gibt es keine aktuellen Arbeiten, die solche Vergleiche im biomedizinischen Kontext durchführen; insbesondere fehlt eine detaillierte Analyse der neuronalen Modelle an diesen Daten. Experimentelle Ergebnisse zeigen, dass die neuronalen Modelle im Allgemeinen die auf Merkmalen basierenden Modelle bei den beiden Benchmark-Korpora GENIA und CRAFT übertreffen. Wir führen auch eine taskorientierte Evaluation durch, um den Einfluss dieser Modelle in einer nachgelagerten Anwendung zur Extraktion biomedizinischer Ereignisse zu untersuchen, und zeigen, dass eine bessere intrinsische Parsing-Leistung nicht immer eine bessere extrinsische Ereignisextraktions-Leistung impliziert. Schlussfolgerung: Wir haben eine detaillierte empirische Studie vorgestellt, in der traditionelle Merkmalsbasierungen und neuronale Netzwerke-basierte Modelle für POS-Tagging und Dependenzanalyse im biomedizinischen Kontext verglichen werden. Darüber hinaus haben wir den Einfluss der Parserauswahl für eine nachgelagerte Aufgabe zur Extraktion biomedizinischer Ereignisse untersucht. Verfügbarkeit von Daten und Materialien: Die neu trainierten Modelle sind unter https://github.com/datquocnguyen/BioPosDep verfügbar.