RadQA : Un jeu de données de réponse aux questions pour améliorer la compréhension des rapports de radiologie

Nous présentons un jeu de données de réponse à des questions en radiologie, appelé RadQA, comprenant 3 074 questions posées à partir de rapports de radiologie et annotées avec leurs extractions de réponse correspondantes (ce qui donne un total de 6 148 paires question-réponse preuve), réalisées par des médecins. Les questions sont créées manuellement à partir de la section de prescription clinique des rapports, en tenant compte des besoins réels d’information des médecins prescripteurs, tout en éliminant tout biais lié à la vision du contexte de la réponse (et en générant, de manière naturelle, des questions sans réponse possible). Les extractions de réponse sont marquées dans les sections « Trouvailles » et « Impressions » d’un rapport. Ce jeu de données vise à répondre aux exigences cliniques complexes en incluant des formulations de réponse complètes (mais concises), qui ne se limitent pas à des entités, et peuvent s’étendre sur plusieurs lignes. Nous menons une analyse approfondie de ce jeu de données en examinant les grandes catégories de désaccord dans l’annotation (offrant des éclairages sur les erreurs commises par les humains) et les exigences de raisonnement nécessaires pour répondre à une question (mettant en évidence la forte dépendance aux connaissances médicales pour répondre correctement). Les modèles linguistiques avancés basés sur les transformateurs atteignent un score F1 maximal de 63,55 sur l’ensemble de test, tandis que la meilleure performance humaine atteint 90,31 (avec une moyenne de 84,52). Cela démontre la difficulté inhérente au jeu de données RadQA, laissant ainsi une large place pour des recherches futures.