CBLUE : Un benchmark d'évaluation de la compréhension linguistique biomédicale chinoise

L'intelligence artificielle (IA), associée aux récents progrès dans la compréhension du langage biomédical, modifie progressivement les pratiques médicales. Avec le développement de référentiels d'évaluation de la compréhension du langage biomédical, les applications d'IA sont largement utilisées dans le domaine médical. Cependant, la plupart des référentiels sont limités à l'anglais, ce qui rend difficile la reproduction de nombreux succès obtenus en anglais pour d'autres langues. Pour faciliter les recherches dans cette direction, nous avons collecté des données biomédicales issues du monde réel et présentons le premier référentiel d'évaluation de la compréhension du langage biomédical chinois (CBLUE) : une collection de tâches de compréhension du langage naturel comprenant la reconnaissance d'entités nommées, l'extraction d'informations, la normalisation des diagnostics cliniques, la classification mono-sentence/paires de sentences, ainsi qu'une plateforme en ligne associée pour l'évaluation, la comparaison et l'analyse des modèles. Afin d'établir une évaluation sur ces tâches, nous rapportons des résultats empiriques avec les 11 modèles pré-entraînés actuels en chinois, et les résultats expérimentaux montrent que les modèles neuronaux les plus avancés performaient nettement moins bien que le seuil humain. Notre référentiel est disponible à l'adresse \url{https://tianci.aliyun.com/dataset/dataDetail?dataId=95414&lang=en-us}.