HyperAIHyperAI

Command Palette

Search for a command to run...

LongT5 : Transformateur Texte-à-Texte efficace pour des séquences longues

Mandy Guo Joshua Ainslie David Uthus Santiago Ontanon Jianmo Ni Yun-Hsuan Sung Yinfei Yang

Résumé

Des travaux récents ont montré qu’il est possible d’améliorer les performances des modèles neuronaux basés sur les Transformers soit en augmentant la longueur d’entrée, soit en augmentant la taille du modèle. Dans cet article, nous présentons un nouveau modèle, appelé LongT5, permettant d’étudier simultanément l’effet de l’augmentation de la longueur d’entrée et de la taille du modèle. Plus précisément, nous avons intégré des idées d’attention provenant des Transformers conçus pour des entrées longues (ETC) et adopté des stratégies de pré-entraînement inspirées du pré-entraînement pour la synthèse (PEGASUS) dans l’architecture T5 évolutif. Le résultat est un nouveau mécanisme d’attention que nous appelons {\em Transient Global} (TGlobal), qui imite le mécanisme d’attention locale/global d’ETC, tout en n’exigeant aucun input supplémentaire. Grâce à cette approche, nous obtenons des résultats de pointe sur plusieurs tâches de synthèse, et surpassons les modèles T5 d’origine sur des tâches de réponse à des questions.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp