HyperAIHyperAI
il y a 9 jours

Détection et indexation chimiques dans les articles complets PubMed à l’aide de méthodes basées sur l’apprentissage profond et des règles

{Sérgio Matos, João Rafael Almeida, João Figueira Silva, Rui Antunes, Tiago Almeida}
Résumé

L’identification des composés chimiques dans la littérature scientifique biomédicale constitue une tâche cruciale pour la recherche en développement de médicaments. Le défi BioCreative NLM-Chem a favorisé le développement de systèmes automatisés capables d’identifier les composés chimiques dans les articles complets et de déterminer quels concepts chimiques doivent être indexés. Ce travail présente la participation de l’équipe BIT.UA de l’Université d’Aveiro, proposant un pipeline automatisé en trois étapes qui traite séparément (i) la détection des mentions chimiques, (ii) la normalisation des entités et (iii) l’indexation. Nous avons adopté une solution basée sur l’apprentissage profond, fondée sur une variante biomédicale du modèle BERT, pour l’identification chimique. Pour la normalisation, nous avons utilisé une approche fondée sur des règles ainsi qu’une version hybride exploitant un mécanisme de recherche dense. De même, pour l’indexation, nous avons exploré deux approches distinctes : une méthode basée sur des règles et une méthode fondée sur TF-IDF. Nos meilleurs résultats officiels dépassent de façon cohérente la médiane officielle et le benchmark dans les trois sous-tâches, avec des scores F1 respectivement de 0,8454, 0,8136 et 0,4664.