HyperAIHyperAI
il y a 9 jours

Identification et indexation chimiques dans les articles complets PubMed à l’aide du deep learning et d’heuristiques

{Sérgio Matos, João R. Almeida, João F. Silva, Rui Antunes, Tiago Almeida}
Résumé

L’identification des composés chimiques dans les articles a suscité un grand intérêt au sein de la communauté scientifique biomédicale en raison de son importance dans la recherche sur le développement de médicaments. La majeure partie des travaux antérieurs s’est concentrée sur les résumés PubMed, mais une investigation plus approfondie à l’aide de documents complets s’avère nécessaire, car ceux-ci contiennent des informations supplémentaires précieuses qui doivent être exploitées. La tâche manuelle d’indexation des termes Medical Subject Headings (MeSH) associés à ces articles aide par la suite les chercheurs à identifier les publications les plus pertinentes pour leurs travaux en cours. La piste NLM-Chem de BioCreative VII a favorisé le développement de systèmes d’identification et d’indexation des composés chimiques dans les articles complets PubMed. L’identification chimique consistait à détecter les mentions de composés chimiques et à les lier à des identifiants MeSH uniques. Ce manuscrit décrit notre système de participation ainsi que les améliorations apportées après le défi. Nous proposons un pipeline en trois étapes qui traite séparément la détection des mentions chimiques, la normalisation des entités et l’indexation. Pour l’identification chimique, nous avons adopté une solution basée sur l’apprentissage profond utilisant des embeddings contextualisés PubMedBERT, suivis d’un perceptron multicouche et d’une couche de tagage à champ aléatoire conditionnel. Pour l’approche de normalisation, nous avons appliqué un filtrage par dictionnaire basé sur des méthodes de tamisage, suivi d’une stratégie de recherche de similarité fondée sur l’apprentissage profond. Enfin, pour l’indexation, nous avons conçu des règles permettant d’identifier les codes MeSH les plus pertinents pour chaque article. Pendant le défi, notre système a obtenu les meilleurs résultats officiels dans les tâches de normalisation et d’indexation, malgré une performance moindre dans la reconnaissance des mentions chimiques. Dans une phase post-défi, nous avons amélioré nos résultats en renforçant notre modèle de reconnaissance d’entités nommées grâce à des techniques supplémentaires. Le système final a atteint des scores respectifs de 0,8731, 0,8275 et 0,4849 pour les tâches d’identification chimique, de normalisation et d’indexation. Le code permettant de reproduire nos expériences et d’exécuter le pipeline est disponible publiquement.URL de la base de données : https://github.com/bioinformatics-ua/biocreativeVII_track2