HyperAIHyperAI

Command Palette

Search for a command to run...

Adaptation des modèles préentraînés texte-à-texte aux séquences de texte longues

Wenhan Xiong Anchit Gupta Shubham Toshniwal Yashar Mehdad Wen-tau Yih

Résumé

Nous présentons une étude empirique sur l’adaptation d’un modèle préentraîné existant, conçu pour des entrées textuelles courtes, afin de traiter des séquences longues. À travers une analyse approfondie selon trois axes du pipeline de préentraînement — architecture du modèle, objectif d’optimisation et corpus de préentraînement —, nous proposons une recette efficace pour construire des modèles à long contexte à partir de modèles existants à court contexte. Plus précisément, nous remplaçons l’attention complète des Transformers par une attention par blocs enrichie par des opérations de pooling, et préentraînons le modèle avec une tâche de prédiction de segments masqués, où les longueurs des segments varient. En ce qui concerne le corpus de préentraînement, nous constatons qu’utiliser des documents courts concaténés aléatoirement à partir d’un grand corpus ouvert couvre mieux les domaines que d’utiliser des corpus de documents longs existants, qui sont généralement limités en couverture de domaine. Grâce à ces résultats, nous avons développé un modèle à long contexte qui atteint des performances compétitives sur des tâches de question-réponse sur textes longs, et établit un nouveau record sur cinq jeux de données de résumé de textes longs, surpassant souvent des méthodes antérieures utilisant des modèles de taille plus importante. Notre code est disponible à l’adresse suivante : https://github.com/facebookresearch/bart_ls.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp