il y a 15 jours

Adaptation des modèles préentraînés texte-à-texte aux séquences de texte longues

Wenhan Xiong, Anchit Gupta, Shubham Toshniwal, Yashar Mehdad, Wen-tau Yih

Résumé

Nous présentons une étude empirique sur l’adaptation d’un modèle préentraîné existant, conçu pour des entrées textuelles courtes, afin de traiter des séquences longues. À travers une analyse approfondie selon trois axes du pipeline de préentraînement — architecture du modèle, objectif d’optimisation et corpus de préentraînement —, nous proposons une recette efficace pour construire des modèles à long contexte à partir de modèles existants à court contexte. Plus précisément, nous remplaçons l’attention complète des Transformers par une attention par blocs enrichie par des opérations de pooling, et préentraînons le modèle avec une tâche de prédiction de segments masqués, où les longueurs des segments varient. En ce qui concerne le corpus de préentraînement, nous constatons qu’utiliser des documents courts concaténés aléatoirement à partir d’un grand corpus ouvert couvre mieux les domaines que d’utiliser des corpus de documents longs existants, qui sont généralement limités en couverture de domaine. Grâce à ces résultats, nous avons développé un modèle à long contexte qui atteint des performances compétitives sur des tâches de question-réponse sur textes longs, et établit un nouveau record sur cinq jeux de données de résumé de textes longs, surpassant souvent des méthodes antérieures utilisant des modèles de taille plus importante. Notre code est disponible à l’adresse suivante : https://github.com/facebookresearch/bart_ls.