HyperAIHyperAI
il y a 11 jours

Étude d'une extension efficace des Transformers pour la synthèse de longues entrées

Jason Phang, Yao Zhao, Peter J. Liu
Étude d'une extension efficace des Transformers pour la synthèse de longues entrées
Résumé

Bien que les grands modèles préentraînés de type Transformer se soient avérés extrêmement performants pour traiter les tâches liées au langage naturel, la gestion des séquences d’entrée longues reste un défi majeur. L’une de ces tâches est la résumé de séquences longues, où les entrées dépassent la longueur maximale du contexte d’entrée de la plupart des modèles préentraînés. À travers une série étendue d’expériences, nous étudions quelles modifications architecturales de modèle et quels paradigmes d’entraînement préalable permettent d’adapter de manière la plus efficace un modèle Transformer préentraîné au résumé de séquences longues. Nous constatons qu’un modèle Transformer à blocs en escalier, avec des jetons d’encodeur globaux, offre un bon compromis entre performance et efficacité, et qu’une phase supplémentaire d’entraînement préalable sur des séquences longues améliore significativement les performances en tâche de résumé. Sur la base de ces résultats, nous introduisons PEGASUS-X, une extension du modèle PEGASUS, enrichie par un entraînement préalable supplémentaire sur des séquences longues, capable de traiter des entrées allant jusqu’à 16 000 tokens. PEGASUS-X atteint des performances solides sur les tâches de résumé de séquences longues, comparables à celles de modèles bien plus volumineux, tout en ajoutant très peu de paramètres et sans nécessiter de parallélisme de modèle pour l’entraînement.

Étude d'une extension efficace des Transformers pour la synthèse de longues entrées | Articles de recherche récents | HyperAI