HyperAIHyperAI

Command Palette

Search for a command to run...

Étude d'une extension efficace des Transformers pour la synthèse de longues entrées

Jason Phang Yao Zhao Peter J. Liu

Résumé

Bien que les grands modèles préentraînés de type Transformer se soient avérés extrêmement performants pour traiter les tâches liées au langage naturel, la gestion des séquences d’entrée longues reste un défi majeur. L’une de ces tâches est la résumé de séquences longues, où les entrées dépassent la longueur maximale du contexte d’entrée de la plupart des modèles préentraînés. À travers une série étendue d’expériences, nous étudions quelles modifications architecturales de modèle et quels paradigmes d’entraînement préalable permettent d’adapter de manière la plus efficace un modèle Transformer préentraîné au résumé de séquences longues. Nous constatons qu’un modèle Transformer à blocs en escalier, avec des jetons d’encodeur globaux, offre un bon compromis entre performance et efficacité, et qu’une phase supplémentaire d’entraînement préalable sur des séquences longues améliore significativement les performances en tâche de résumé. Sur la base de ces résultats, nous introduisons PEGASUS-X, une extension du modèle PEGASUS, enrichie par un entraînement préalable supplémentaire sur des séquences longues, capable de traiter des entrées allant jusqu’à 16 000 tokens. PEGASUS-X atteint des performances solides sur les tâches de résumé de séquences longues, comparables à celles de modèles bien plus volumineux, tout en ajoutant très peu de paramètres et sans nécessiter de parallélisme de modèle pour l’entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp