Command Palette
Search for a command to run...
PubMedQA : Un jeu de données pour la réponse à des questions en recherche biomédicale
PubMedQA : Un jeu de données pour la réponse à des questions en recherche biomédicale
Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu
Résumé
Nous introduisons PubMedQA, un nouveau jeu de données de réponse à des questions (QA) en biomédecine, extrait des résumés PubMed. La tâche de PubMedQA consiste à répondre à des questions de recherche par « oui », « non » ou « peut-être » (par exemple : Les statines prémédicales réduisent-elles la fibrillation atriale après un pontage coronaire ?), à partir des résumés correspondants. PubMedQA comprend 1 000 instances annotées par des experts, 61 200 instances non étiquetées et 211 300 instances de questions-réponses générées artificiellement. Chaque instance de PubMedQA est composée de : (1) une question, soit un titre d’article scientifique existant, soit dérivée d’un tel titre ; (2) un contexte, qui est le résumé correspondant privé de sa conclusion ; (3) une réponse longue, qui est la conclusion du résumé et, par hypothèse, répond à la question de recherche ; (4) une réponse binaire « oui »/« non »/« peut-être », qui résume la conclusion. PubMedQA est le premier jeu de données de QA où une inférence sur des textes de recherche biomédicale, en particulier sur leurs contenus quantitatifs, est nécessaire pour répondre aux questions. Notre modèle le plus performant, une fine-tuning en plusieurs phases de BioBERT utilisant des statistiques de mots du bag-of-words de la réponse longue comme supervision supplémentaire, atteint une précision de 68,1 %, contre 78,0 % pour un humain unique et 55,2 % pour la borne de majorité, laissant ainsi une marge importante pour l’amélioration. PubMedQA est disponible publiquement à l’adresse suivante : [URL].