Extraktion von Arzneimittel-Arzneimittel-Wechselwirkungen aus Literatur mittels eines reichhaltigen, featurebasierten linearen Kernel-Ansatzes
Die Identifizierung bisher unbekannter Arzneimittelwechselwirkungen ist von großer Bedeutung für die Früherkennung unerwünschter Arzneimittelwirkungen. Trotz der Existenz mehrerer Ressourcen zur Arzneimittel-Arzneimittel-Wechselwirkung (DDI)-Information ist diese Fülle an Daten in einer großen Menge unstrukturierter medizinischer Texte vergraben, die sich exponentiell vermehrt. Dies erfordert die Entwicklung von Text-Mining-Techniken zur Identifizierung von DDIs. Die derzeit fortschrittlichsten Methoden zur DDI-Extraktion nutzen Support Vector Machines (SVMs) mit nichtlinearen zusammengesetzten Kernen, um vielfältige Kontextinformationen in der Literatur zu erschließen. Während Systeme auf Basis linearer Kerne rechnerisch weniger aufwendig sind, erreichen sie bisher keine vergleichbare Leistung bei der DDI-Extraktion. In dieser Arbeit präsentieren wir ein effizientes und skalierbares System, das einen linearen Kern zur Identifizierung von DDI-Informationen nutzt. Der vorgeschlagene Ansatz besteht aus zwei Schritten: der Identifizierung von DDIs und der Zuordnung einer von vier verschiedenen DDI-Typen zu den vorhergesagten Arzneimittel-Paaren. Wir zeigen, dass ein linearer SVM-Klassifikator, ausgestattet mit einer reichen Menge an lexikalischen und syntaktischen Merkmalen, eine konkurrenzfähige Leistung bei der Detektion von DDIs erzielen kann. Zudem erweist sich die One-against-One-Strategie als entscheidend für die Bewältigung des Ungleichgewichtsproblems bei der Klassifikation von DDI-Typen. Angewandt auf die DDIExtraction-2013-Korpus-Daten erreicht unser System eine F1-Score von 0,670, im Vergleich zu 0,651 und 0,609, die von den beiden besten Teams der DDIExtraction-2013-Challenge berichtet wurden, wobei beide Systeme auf nichtlinearen Kernen basierten.