Résolution de coréférence dans les articles de recherche de plusieurs domaines

La résolution de coréférence est essentielle pour la compréhension automatique des textes, afin de faciliter des tâches avancées d'extraction d'information telles que la synthèse de texte ou la réponse aux questions. Les travaux antérieurs montrent que les performances des approches de pointe (par exemple basées sur BERT) diminuent sensiblement lorsqu'elles sont appliquées à des articles scientifiques. Dans ce papier, nous étudions la tâche de résolution de coréférence dans les articles de recherche ainsi que sa contribution à la population de graphes de connaissances. Nous présentons les contributions suivantes : (1) Nous annotons un corpus de résolution de coréférence comprenant 10 disciplines scientifiques différentes issues des domaines des Sciences, de la Technologie et de la Médecine (STM) ; (2) Nous proposons une méthode d'apprentissage par transfert pour la résolution automatique de coréférence dans les articles scientifiques ; (3) Nous analysons l'impact de la résolution de coréférence sur la population de graphes de connaissances (KG) ; (4) Nous mettons à disposition un graphe de connaissances de recherche, automatiquement peuplé à partir de 55 485 articles dans 10 domaines STM. Des expériences approfondies démontrent l'utilité de l'approche proposée. Notre méthode d'apprentissage par transfert surpasse nettement les états de l'art sur notre corpus, avec un score F1 de 61,4 (+11,0), tandis que l'évaluation par rapport à un KG de référence (gold standard) montre que la résolution de coréférence améliore significativement la qualité du KG peuplé, atteignant un score F1 de 63,5 (+21,8).