HyperAIHyperAI
il y a 17 jours

Intégrer la curatation dans la publication scientifique pour entraîner des modèles d'IA

Jorge Abreu-Vicente, Hannah Sonntag, Thomas Eidens, Cassie S. Mitchell, Thomas Lemberger
Intégrer la curatation dans la publication scientifique pour entraîner des modèles d'IA
Résumé

L’extraction à haut débit et l’étiquetage structuré des données à partir d’articles académiques sont essentiels pour permettre des applications ultérieures d’apprentissage automatique et des analyses secondaires. Nous avons intégré la curatelle multimodale dans le processus de publication académique afin d’annoter les panneaux figure segmentés ainsi que leurs légendes. Le traitement automatique du langage naturel (NLP) a été combiné à un retour humain en boucle (human-in-the-loop) provenant des auteurs originaux afin d’améliorer la précision des annotations. Les annotations comprennent huit catégories d’entités biologiques (petits composés, produits géniques, composants subcellulaires, lignées cellulaires, types cellulaires, tissus, organismes et maladies), ainsi que des classes supplémentaires décrivant les rôles de ces entités dans les conceptions expérimentales et les méthodologies. Le jeu de données résultant, appelé SourceData-NLP, contient plus de 620 000 entités biomédicales annotées, curatées à partir de 18 689 figures issues de 3 223 articles en biologie moléculaire et cellulaire. Nous évaluons l’utilité de ce jeu de données pour former des modèles d’intelligence artificielle à l’aide de tâches de reconnaissance d’entités nommées, de segmentation des légendes de figures en leurs panneaux constitutifs, ainsi que d’une nouvelle tâche sémantique dépendante du contexte visant à déterminer si une entité constitue une cible d’intervention contrôlée ou un objet de mesure. Nous illustrons également l’utilisation de notre jeu de données pour effectuer une tâche multimodale consistant à segmenter les figures en images de panneaux et leurs légendes correspondantes.