Amélioration de l'extraction de relations biomédicales à l'aide de modèles Transformer en utilisant des caractéristiques de chemin de dépendance le plus court et des informations tripletées
L'extraction de relations entre entités joue un rôle fondamental dans les domaines biomédicaux, de la santé et de la recherche clinique. Récemment, les modèles pré-entraînés basés sur les architectures Transformer et leurs variantes ont démontré des performances remarquables dans diverses tâches de traitement du langage naturel. La plupart de ces variantes reposent sur des modifications mineures des composants architecturaux, des schémas de représentation, ainsi que sur l’enrichissement des données par des méthodes de supervision à distance. Dans les approches de supervision à distance, l’un des principaux défis réside dans l’élimination des échantillons bruités. Une situation similaire peut survenir lorsque les échantillons d’entraînement ne sont pas directement disponibles, mais doivent être construits à partir d’un ensemble de données donné. Le défi BioCreative V sur les relations entre composés chimiques et maladies (CDR) fournit un jeu de données qui ne propose pas explicitement d’étiquetages d’entités au niveau des mentions, reproduisant ainsi la situation décrite ci-dessus. Il devient alors essentiel de sélectionner les phrases représentatives dans les abstracts ou documents fournis, capables de refléter une relation potentielle entre entités. La plupart des méthodes existantes dans la littérature proposent soit d’utiliser tout le texte, soit toutes les phrases contenant les mentions d’entités. Cette approche peut s’avérer coûteuse en temps de calcul et chronophage. Ce papier présente une nouvelle approche pour traiter de telles situations, en particulier dans le domaine de l’extraction de relations biomédicales. Nous proposons d’utiliser les caractéristiques du plus court chemin dépendant (Shortest Dependency Path, SDP) afin de construire des échantillons de données en éliminant les informations bruyantes et en sélectionnant les échantillons les plus représentatifs pour l’apprentissage du modèle. Nous intégrons également l’information en triplet dans l’apprentissage du modèle en utilisant une variante biomédicale de BERT, à savoir BioBERT. Le problème est formulé comme une tâche de classification de paires de phrases, où l’entrée est constituée d’une phrase et d’un couple entité-relation. Nous analysons l’approche sur les relations intra-sententielles et inter-sententielles au sein du jeu de données CDR. L’approche proposée, qui exploite les caractéristiques SDP et les informations en triplet, obtient des résultats prometteurs, notamment dans la tâche d’extraction de relations inter-sententielles. Le code utilisé dans cette étude est mis à disposition publiquement sur GitHub.