Extraction de relations $n$-aires de bout en bout pour les thérapies combinées par médicaments

Les thérapies combinées sont des protocoles de traitement impliquant deux médicaments ou plus, généralement administrés aux patients atteints de cancer, du VIH, du paludisme ou de la tuberculose. Actuellement, il existe plus de 350 000 articles dans PubMed utilisant le terme MeSH « thérapie combinée » avec au moins 10 000 articles publiés chaque année au cours des deux dernières décennies. L'extraction de thérapies combinées à partir de la littérature scientifique constitue intrinsèquement un problème d'extraction de relations $n$-aires. Contrairement au cadre général $n$-aire où $n$ est fixe (par exemple, les relations médicament-gène-mutation où $n=3$), l'extraction de thérapies combinées est un cas particulier où $n \geq 2$ est dynamique, en fonction de chaque instance. Récemment, Tiktinsky et al. (NAACL 2022) ont introduit un jeu de données unique en son genre, CombDrugExt, pour extraire ces thérapies à partir de la littérature. Ici, nous utilisons une méthode d'extraction bout-en-bout basée sur une séquence à séquence pour obtenir un score F1 de $66{,}7\%$ sur l'ensemble de test CombDrugExt pour les combinaisons positives (ou efficaces). Cela représente une amélioration absolue d'environ $\approx 5\%$ du score F1 par rapport au meilleur score précédent de classification des relations avec des entités médicamenteuses repérées (donc pas bout-en-bout). Ainsi, notre travail introduit un premier modèle d'état de l'art pour l'extraction bout-en-bout qui est déjà supérieur au meilleur modèle non bout-en-bout précédent pour cette tâche. Notre modèle extrait sans heurt toutes les entités médicamenteuses et leurs relations en une seule passe et convient parfaitement aux scénarios d'extraction $n$-aire dynamique.