CiteSum : Résumé scientifique extrême guidé par le texte de citation et adaptation de domaine avec une supervision limitée

Le résumé scientifique extrême (TLDR) vise à créer des résumés ultra-courts d'articles scientifiques. Les tentatives précédentes de constitution de jeux de données TLDR scientifiques n'ont pas réussi à s'échelonner en raison du lourd travail d'annotation humaine et de l'expertise dans le domaine nécessaires. Dans cet article, nous proposons une approche simple mais efficace pour extraire automatiquement des résumés TLDR d'articles scientifiques à partir de leurs textes de citation. Sur la base de cette approche, nous créons un nouveau benchmark appelé CiteSum sans annotation humaine, qui est environ 30 fois plus grand que le précédent jeu de données annoté par des humains, SciTLDR. Nous menons une analyse exhaustive de CiteSum, examinant ses caractéristiques de données et établissant des baselines solides. Nous démontrons en outre l'utilité de CiteSum en adaptant des modèles pré-entraînés sur CiteSum (nommés CITES) à de nouvelles tâches et domaines avec une supervision limitée. Pour le résumé scientifique extrême, CITES surpassent la plupart des méthodes entièrement supervisées sur SciTLDR sans aucun ajustement fin et obtiennent des résultats d'état de l'art avec seulement 128 exemples. Pour le résumé extrême des actualités, CITES réalisent des gains significatifs sur XSum par rapport à leur modèle de base (non pré-entraîné sur CiteSum), par exemple, une performance zéro-shot ROUGE-1 +7,2 et une performance d'état de l'art en few-shot. Pour la génération de titres d'actualités, CITES se distingue comme étant la meilleure méthode parmi les approches non supervisées et zéro-shot sur Gigaword. Notre jeu de données et notre code sont disponibles à l'adresse suivante : https://github.com/morningmoni/CiteSum.