HyperAIHyperAI
il y a 11 jours

Vers une unification de la segmentation de texte et de la résumé de documents longs

Sangwoo Cho, Kaiqiang Song, Xiaoyang Wang, Fei Liu, Dong Yu
Vers une unification de la segmentation de texte et de la résumé de documents longs
Résumé

La segmentation de texte est essentielle pour indiquer la structure d’un document. Sans diviser un long document en sections cohérentes sur le plan thématique, il est difficile pour les lecteurs de comprendre le contenu, encore plus d’identifier des informations importantes. Ce problème est encore aggravé par l’absence de segmentation dans les transcriptions d’enregistrements audio ou vidéo. Dans cet article, nous explorons le rôle de la segmentation de sections dans la synthèse extraite de documents écrits et parlés. Notre approche apprend des représentations robustes des phrases en effectuant simultanément la synthèse et la segmentation, renforcée par un régulariseur basé sur l’optimisation afin de favoriser la sélection de phrases de synthèse diversifiées. Nous menons des expériences sur plusieurs jeux de données, allant d’articles scientifiques à des transcriptions orales, afin d’évaluer les performances du modèle. Nos résultats indiquent que le modèle non seulement atteint des performances de pointe sur des benchmarks publics, mais aussi présente une meilleure transférabilité inter-genre lorsqu’il est équipé d’une segmentation textuelle. Nous réalisons une série d’analyses afin de quantifier l’impact de la segmentation de sections sur la synthèse de documents écrits et parlés de grande longueur et de grande complexité.

Vers une unification de la segmentation de texte et de la résumé de documents longs | Articles de recherche récents | HyperAI