Extraction de concepts scientifiques indépendante du domaine à partir d'articles de recherche

Nous examinons la nouvelle tâche d'extraction de concepts scientifiques indépendants du domaine à partir des résumés d'articles savants et présentons deux contributions. Premièrement, nous proposons un ensemble de concepts scientifiques génériques qui ont été identifiés au cours d'un processus d'annotation systématique. Cet ensemble de concepts est utilisé pour annoter un corpus de résumés scientifiques provenant de 10 domaines des Sciences, Technologies et Médecines au niveau phrastique, en collaboration avec des experts du domaine. Le jeu de données résultant est utilisé dans une série d'expériences de référence pour (a) fournir une performance de base pour cette tâche, (b) examiner la transférabilité des concepts entre les domaines. Deuxièmement, nous présentons deux systèmes d'apprentissage profond comme points de référence. Plus particulièrement, nous proposons l'apprentissage actif pour traiter différents domaines dans notre tâche. Les résultats expérimentaux montrent que (1) un accord substantiel peut être atteint par des non-experts après consultation avec des experts du domaine, (2) le système de base obtient un score F1 relativement élevé, (3) l'apprentissage actif nous permet presque de diviser par deux la quantité de données d'entraînement requises.