LongT5 : Transformateur Texte-à-Texte efficace pour des séquences longues

Des travaux récents ont montré qu’il est possible d’améliorer les performances des modèles neuronaux basés sur les Transformers soit en augmentant la longueur d’entrée, soit en augmentant la taille du modèle. Dans cet article, nous présentons un nouveau modèle, appelé LongT5, permettant d’étudier simultanément l’effet de l’augmentation de la longueur d’entrée et de la taille du modèle. Plus précisément, nous avons intégré des idées d’attention provenant des Transformers conçus pour des entrées longues (ETC) et adopté des stratégies de pré-entraînement inspirées du pré-entraînement pour la synthèse (PEGASUS) dans l’architecture T5 évolutif. Le résultat est un nouveau mécanisme d’attention que nous appelons {\em Transient Global} (TGlobal), qui imite le mécanisme d’attention locale/global d’ETC, tout en n’exigeant aucun input supplémentaire. Grâce à cette approche, nous obtenons des résultats de pointe sur plusieurs tâches de synthèse, et surpassons les modèles T5 d’origine sur des tâches de réponse à des questions.