HyperAIHyperAI
il y a 2 mois

Modèles de Transformers épurés avec un regroupement de représentations entraînable

Michał Pietruszka; Łukasz Borchmann; Łukasz Garncarek
Modèles de Transformers épurés avec un regroupement de représentations entraînable
Résumé

Nous proposons une nouvelle méthode pour raréfier l'attention dans le modèle Transformer en apprenant à sélectionner les représentations de jetons les plus informatives au cours du processus d'entraînement, ce qui permet de se concentrer sur les parties spécifiques à la tâche de l'entrée. Une réduction de la complexité temporelle et mémoire quadratique à sous-linéaire a été réalisée grâce à un opérateur top-$k$ robuste et entraînable. Nos expériences sur une tâche difficile de résumation de documents longs montrent que même notre ligne de base simple performe de manière comparable aux méthodes actuelles de pointe (SOTA), et avec un regroupement entraînable, nous pouvons maintenir sa qualité supérieure tout en étant 1,8 fois plus rapide lors de l'entraînement, 4,5 fois plus rapide lors de l'inférence, et jusqu'à 13 fois plus efficace sur le plan computationnel dans le décodeur.

Modèles de Transformers épurés avec un regroupement de représentations entraînable | Articles de recherche récents | HyperAI