GenCompareSum : une méthode hybride non supervisée de résumé basée sur la salience

La résumé automatique (TS) est une tâche fondamentale en traitement du langage naturel (NLP). Les modèles linguistiques pré-entraînés (PLMs) ont été largement utilisés pour améliorer les performances de la TS. Toutefois, ces modèles sont limités par leur dépendance aux données étiquetées pour l'entraînement et par leur mécanisme d'attention, qui les rend souvent inadaptés à la traitement de documents longs. À cet effet, nous proposons une approche hybride, non supervisée, combinant extraction et abstraction, dans laquelle nous parcourons un document pour générer des fragments textuels significatifs représentant ses points clés. Nous sélectionnons ensuite les phrases les plus importantes du document en choisissant celles qui sont les plus similaires aux textes générés, la similarité étant calculée à l’aide de BERTScore. Nous évaluons l’efficacité de la génération et de l’utilisation de ces fragments textuels significatifs pour guider la résumé par extraction sur des documents provenant des domaines biomédical et scientifique général. Nous comparons les performances entre documents longs et courts en utilisant différents modèles génératifs, fine-tunés pour produire des requêtes pertinentes ou des titres de documents. Nos résultats montrent que notre approche hybride surpasser les méthodes non supervisées existantes ainsi que les méthodes supervisées de pointe, tout en nécessitant une quantité réduite de données étiquetées.