CollaboNet : collaboration de réseaux neuronaux profonds pour la reconnaissance d'entités nommées biomédicales

Contexte : La détection d'entités nommées biomédicales est l'une des tâches les plus essentielles dans le domaine de l'exploration de texte biomédical. Récemment, des approches basées sur l'apprentissage profond ont été appliquées à la reconnaissance d'entités nommées biomédicales (BioNER) et ont montré des résultats prometteurs. Cependant, comme les méthodes d'apprentissage profond nécessitent une quantité importante de données d'entraînement, un manque de données peut entraver les performances. Les ensembles de données pour la BioNER sont des ressources rares et chaque ensemble ne couvre qu'un petit sous-ensemble de types d'entités. De plus, de nombreuses entités biologiques sont polysémiques, ce qui constitue l'un des principaux obstacles à la reconnaissance d'entités nommées.Résultats : Pour remédier au manque de données et au problème de mauvaise classification des types d'entités, nous proposons CollaboNet, qui utilise une combinaison de plusieurs modèles de reconnaissance d'entités nommées (NER). Dans CollaboNet, les modèles formés sur différents ensembles de données sont interconnectés afin qu'un modèle cible puisse obtenir des informations provenant d'autres modèles collaborateurs pour réduire les faux positifs. Chaque modèle est un expert pour son type d'entité cible et se relaie pour servir tantôt comme modèle cible, tantôt comme modèle collaborateur pendant la phase d'entraînement. Les résultats expérimentaux montrent que CollaboNet permet une réduction significative du nombre de faux positifs et de mauvaises classifications d'entités, y compris les mots polysémiques. CollaboNet a atteint des performances parmi les meilleures actuellement disponibles en termes de précision, rappel et score F1.Conclusions : Nous avons démontré les avantages combinés de l'utilisation de plusieurs modèles pour la BioNER. Notre modèle a réussi à réduire le nombre d'entités mal classées et à améliorer les performances en tirant parti de plusieurs ensembles de données annotés pour différents types d'entités. Étant donné les performances exceptionnelles de notre modèle, nous pensons que CollaboNet peut améliorer la précision des applications downstream (en aval) d'exploration de texte biomédical telles que l'extraction des relations entre entités biologiques.