Funnel-Transformer : Élimination de la redondance séquentielle pour un traitement linguistique efficace

Grâce au succès du préentraînement des langues, il est particulièrement souhaitable de développer des architectures plus efficaces, à bonne échelle, capables d’exploiter de manière coûteuse réduite les données non étiquetées abondantes. Pour améliorer l’efficacité, nous examinons la redondance largement négligée liée au maintien d’une représentation complète au niveau des tokens, notamment pour les tâches qui ne nécessitent qu’une seule représentation vectorielle pour toute la séquence. Partant de cette intuition, nous proposons Funnel-Transformer, une architecture qui compresse progressivement la séquence d’états cachés vers une version plus courte, réduisant ainsi le coût computationnel. Plus important encore, en réinvestissant les FLOPs économisés grâce à cette réduction de longueur dans la construction d’un modèle plus profond ou plus large, nous améliorons davantage la capacité du modèle. En outre, afin de réaliser des prédictions au niveau des tokens, comme cela est requis par les objectifs classiques de préentraînement, Funnel-Transformer est capable de reconstruire une représentation profonde pour chaque token à partir de la séquence cachée réduite grâce à un décodeur. Expérimentalement, avec un nombre de FLOPs comparable ou inférieur, Funnel-Transformer surpasse le Transformer standard sur une large gamme de tâches de prédiction sur séquences, incluant la classification de texte, l’understanding du langage et la compréhension de lecture. Le code source et les points de contrôle préentraînés sont disponibles à l’adresse suivante : https://github.com/laiguokun/Funnel-Transformer.