HyperAIHyperAI
vor 17 Tagen

PubMedQA: Ein Datensatz für die Beantwortung biomedizinischer Forschungsfragen

Qiao Jin, Bhuwan Dhingra, Zhengping Liu, William W. Cohen, Xinghua Lu
PubMedQA: Ein Datensatz für die Beantwortung biomedizinischer Forschungsfragen
Abstract

Wir stellen PubMedQA vor, eine neuartige biomedizinische Frage-Antwort-(QA)-Datenbank, die aus PubMed-Abstracts gesammelt wurde. Die Aufgabe von PubMedQA besteht darin, Forschungsfragen mit den Antworten Ja/Nein/Vermutlich (z. B.: Verringern präoperative Statine die Vorhofflimmern nach einer Koronararterien-Bypass-Operation?) mithilfe der entsprechenden Abstracts zu beantworten. PubMedQA umfasst 1.000 expertenannotierte, 61.200 unlabeled sowie 211.300 künstlich generierte QA-Instanzen. Jede PubMedQA-Instanz besteht aus (1) einer Frage, die entweder ein bestehender Titel einer Forschungsarbeit ist oder aus einem solchen abgeleitet wurde, (2) einem Kontext, der dem entsprechenden Abstract ohne dessen Schlussfolgerung entspricht, (3) einer langen Antwort, die der Schlussfolgerung des Abstracts entspricht und vermutlich die Forschungsfrage beantwortet, sowie (4) einer Ja/Nein/Vermutlich-Antwort, die die Schlussfolgerung zusammenfasst. PubMedQA ist die erste QA-Datenbank, bei der Schlussfolgerungen aus biomedizinischen Forschungstexten – insbesondere deren quantitativen Inhalten – erforderlich sind, um die Fragen zu beantworten. Unser bestleistender Modell, eine mehrphasige Feinabstimmung von BioBERT mit zusätzlicher Supervision durch Bag-of-Words-Statistiken der langen Antwort, erreicht eine Genauigkeit von 68,1 %, im Vergleich zu einer Einzelpersonen-Genauigkeit von 78,0 % und einer Majority-Baseline von 55,2 %, was erheblichen Verbesserungspotenzial offenlegt. PubMedQA ist öffentlich unter https://pubmedqa.github.io verfügbar.