Un jeu de données pour l’extraction de relations n-aires entre les combinaisons de médicaments

Les thérapies combinées sont devenues la norme pour le traitement de maladies telles que le cancer, la tuberculose, le paludisme et le VIH. Cependant, l'ensemble combinatoire des traitements multmédicaux disponibles pose un défi dans l'identification des thérapies combinées efficaces en situation donnée. Pour aider les professionnels médicaux à identifier les combinaisons de médicaments bénéfiques, nous avons construit un jeu de données annoté par des experts destiné à extraire des informations sur l'efficacité des combinaisons de médicaments à partir de la littérature scientifique. Outre son utilité pratique, ce jeu de données présente également un défi unique en traitement automatique du langage naturel (TALN), étant le premier jeu de données d'extraction de relations composé de relations de longueur variable. De plus, les relations dans ce jeu de données nécessitent majoritairement une compréhension linguistique au-delà du niveau sentenciel, ajoutant ainsi à la difficulté de cette tâche. Nous fournissons un modèle baseline prometteur et identifions clairement des domaines d'amélioration supplémentaires. Nous mettons notre jeu de données, notre code et nos modèles baseline à disposition publiquement afin d'encourager la communauté TALN à participer à cette tâche.