ScisummNet : Un grand corpus annoté et des modèles d’impact du contenu pour la synthèse de documents scientifiques avec des réseaux de citations

Le résumé d'articles scientifiques est un défi : des corpus annotés de grande taille ne sont pas disponibles, et le résumé devrait idéalement inclure l'impact de l'article sur la communauté de recherche. Cet article propose des solutions innovantes à ces deux défis. Nous 1) développons et mettons à disposition le premier corpus manuellement annoté de grande échelle pour les articles scientifiques (dans le domaine de la linguistique computationnelle) en permettant une annotation plus rapide, et 2) proposons des méthodes de résumé qui intègrent les points forts originaux des auteurs (résumé) et l'impact réel de l'article sur la communauté (citations), afin de créer des résumés hybrides et complets. Nous menons des expériences pour démontrer l'efficacité de notre corpus dans la formation de modèles guidés par les données pour le résumé d'articles scientifiques, ainsi que l'avantage de nos résumés hybrides par rapport aux résumés traditionnels et aux résumés basés sur les citations. Notre grand corpus annoté et nos méthodes hybrides offrent un nouveau cadre pour la recherche sur le résumé d'articles scientifiques.