HyperAIHyperAI
il y a 17 jours

Comparaison des méthodes et modèles d'extraction de relations biomédicales pour la création de graphes de connaissances

Nikola Milosevic, Wolfgang Thielemann
Comparaison des méthodes et modèles d'extraction de relations biomédicales pour la création de graphes de connaissances
Résumé

La recherche biomédicale progresse à un rythme exponentiel tel que les scientifiques, chercheurs et praticiens ne parviennent plus à suivre l’ampleur de la littérature publiée dans ce domaine. Les connaissances contenues dans cette littérature doivent être systématisées de manière à permettre la recherche, l’accès et la validation aisés des affirmations et des hypothèses. Les graphes de connaissances peuvent offrir un cadre adéquat pour la représentation sémantique des connaissances tirées de la littérature. Toutefois, pour construire un tel graphe, il est nécessaire d’extraire des connaissances sous forme de relations entre entités biomédicales, tout en normalisant à la fois les entités et les types de relations. Dans cet article, nous présentons et comparons plusieurs méthodes fondées sur des règles et des approches d’apprentissage automatique (Bayes naïf, Forêts aléatoires comme exemples de méthodes traditionnelles d’apprentissage automatique, et des modèles basés sur DistilBERT, PubMedBERT, T5 et SciFive comme exemples de transformateurs modernes à apprentissage profond) pour l’extraction de relations à grande échelle à partir de la littérature biomédicale, ainsi que pour leur intégration dans des graphes de connaissances. Nous examinons la robustesse de ces différentes méthodes face à des jeux de données déséquilibrés et relativement petits. Nos expériences montrent que les modèles basés sur les transformateurs gèrent efficacement à la fois les petits jeux de données (grâce à leur pré-entraînement sur de grandes bases de données) et les jeux déséquilibrés. Le meilleur modèle en termes de performance est le modèle PubMedBERT ajusté (fine-tuned) sur des données équilibrées, atteignant un score F1 de 0,92. Le modèle basé sur DistilBERT suit avec un score F1 de 0,89, tout en étant plus rapide et exigeant moins de ressources. Les modèles basés sur BERT surpassent les modèles génératifs basés sur T5.