Résumé non supervisé de longs documents scientifiques prenant en compte le discours

Nous proposons un modèle de classement non supervisé basé sur les graphes pour la synthèse extractive de longs documents scientifiques. Notre méthode repose sur une représentation graphique hiérarchique à deux niveaux du document source et exploite des indices positionnels asymétriques pour déterminer l'importance des phrases. Les résultats obtenus sur les ensembles de données PubMed et arXiv montrent que notre approche surpass largement les méthodes non supervisées de référence en termes de métriques automatiques et d'évaluation par des humains. De plus, elle atteint des performances comparables à celles de nombreuses approches supervisées de pointe qui ont été formées sur plusieurs centaines de milliers d'exemples. Ces résultats suggèrent que les motifs dans la structure discursive sont un signal fort pour déterminer l'importance dans les articles scientifiques.