CliCR : Un Jeu de Données de Rapports de Cas Cliniques pour la Compréhension de la Lecture par Machine

Nous présentons un nouveau jeu de données pour la compréhension machine dans le domaine médical. Notre jeu de données utilise des rapports de cas cliniques accompagnés d'environ 100 000 questions à trous concernant ces cas. Nous appliquons plusieurs méthodes de référence et des lecteurs neuronaux de pointe à ce jeu de données, et nous observons une différence notable de performance (20 % F1) entre les meilleurs lecteurs humains et les lecteurs machine. Nous analysons les compétences nécessaires pour répondre avec succès aux questions et montrons comment la performance des lecteurs varie en fonction des compétences requises. Nous constatons que l'inférence utilisant des connaissances du domaine et le suivi d'objets sont les compétences les plus fréquemment requises, tandis que la reconnaissance d'informations omises et le raisonnement spatio-temporel sont les plus difficiles pour les machines.