HyperAIHyperAI
il y a 17 jours

PubMedQA : Un jeu de données pour la réponse à des questions en recherche biomédicale

Qiao Jin, Bhuwan Dhingra, Zhengping Liu, William W. Cohen, Xinghua Lu
PubMedQA : Un jeu de données pour la réponse à des questions en recherche biomédicale
Résumé

Nous introduisons PubMedQA, un nouveau jeu de données pour la réponse à des questions en biomédecine, constitué à partir d'abstracts PubMed. La tâche de PubMedQA consiste à répondre à des questions de recherche par « oui », « non » ou « peut-être » (par exemple : Les statines prémédicales réduisent-elles l’arythmie auriculaire après un pontage aorto-coronarien ?), en s’appuyant sur les abstracts correspondants. PubMedQA comprend 1 000 instances annotées par des experts, 61 200 instances non étiquetées et 211 300 instances générées artificiellement. Chaque instance de PubMedQA est composée de : (1) une question, qui est soit un titre d’article scientifique existant, soit dérivée d’un tel titre ; (2) un contexte, qui est l’abstract correspondant privé de sa conclusion ; (3) une réponse longue, qui est la conclusion de l’abstract et qui, en théorie, répond à la question de recherche ; et (4) une réponse binaire « oui »/« non »/« peut-être », qui résume la conclusion. PubMedQA est le premier jeu de données de réponse à des questions où une raisonnement sur des textes de recherche biomédicale, en particulier sur leurs éléments quantitatifs, est nécessaire pour répondre aux questions. Notre modèle le plus performant, basé sur un fine-tuning en plusieurs phases de BioBERT, avec des statistiques de mots du bag-of-words de la réponse longue comme supervision additionnelle, atteint une précision de 68,1 %, contre 78,0 % pour un humain unique et 55,2 % pour le modèle de majorité, laissant ainsi un large espace d’amélioration. PubMedQA est disponible publiquement à l’adresse suivante : https://pubmedqa.github.io.

PubMedQA : Un jeu de données pour la réponse à des questions en recherche biomédicale | Articles de recherche récents | HyperAI