HyperAIHyperAI
il y a 11 jours

Long Range Arena : un ensemble de benchmarks pour les Transformers efficaces

Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, Philip Pham, Jinfeng Rao, Liu Yang, Sebastian Ruder, Donald Metzler
Long Range Arena : un ensemble de benchmarks pour les Transformers efficaces
Résumé

Les Transformers ne se généralisent pas très bien aux longues séquences, principalement en raison de la complexité quadratique de l’attention auto-supervisée. Ces derniers mois, une large gamme de Transformers efficaces et rapides a été proposée afin de relever ce défi, et la plupart affirment atteindre une qualité de modèle supérieure ou comparable à celle des Transformers classiques. Pour l’instant, il n’existe pas de consensus établi sur la manière d’évaluer cette catégorie de modèles. En outre, les évaluations incohérentes sur un large éventail de tâches et de jeux de données rendent difficile l’évaluation comparative de la qualité relative entre de nombreux modèles. Ce papier propose une benchmark systématique et unifiée, appelée LRA, spécifiquement conçue pour évaluer la qualité des modèles dans des scénarios à long contexte. Notre benchmark se compose d’une série de tâches impliquant des séquences allant de 1K à 16K tokens, couvrant une large variété de types de données et de modalités, telles que le texte, des données naturelles, des images synthétiques et des expressions mathématiques nécessitant des raisonnements de similarité, structurels et spatiaux-visuels. Nous évaluons de manière systématique dix modèles de Transformers à longue portée bien établis (Reformers, Linformers, Transformers linéaires, Transformers à Sinkhorn, Performers, Synthesizers, Transformers creux et Longformers) sur cette nouvelle suite de benchmarks. LRA ouvre la voie à une meilleure compréhension de cette catégorie de Transformers efficaces, favorise des recherches supplémentaires dans cette direction et introduit de nouvelles tâches exigeantes. Le code de notre benchmark sera publié à l’adresse suivante : https://github.com/google-research/long-range-arena.

Long Range Arena : un ensemble de benchmarks pour les Transformers efficaces | Articles de recherche récents | HyperAI