HyperAIHyperAI

Command Palette

Search for a command to run...

Funnel-Transformer : Élimination de la redondance séquentielle pour un traitement linguistique efficace

Zihang Dai Guokun Lai Yiming Yang Quoc V. Le

Résumé

Grâce au succès du préentraînement des langues, il est particulièrement souhaitable de développer des architectures plus efficaces, à bonne échelle, capables d’exploiter de manière coûteuse réduite les données non étiquetées abondantes. Pour améliorer l’efficacité, nous examinons la redondance largement négligée liée au maintien d’une représentation complète au niveau des tokens, notamment pour les tâches qui ne nécessitent qu’une seule représentation vectorielle pour toute la séquence. Partant de cette intuition, nous proposons Funnel-Transformer, une architecture qui compresse progressivement la séquence d’états cachés vers une version plus courte, réduisant ainsi le coût computationnel. Plus important encore, en réinvestissant les FLOPs économisés grâce à cette réduction de longueur dans la construction d’un modèle plus profond ou plus large, nous améliorons davantage la capacité du modèle. En outre, afin de réaliser des prédictions au niveau des tokens, comme cela est requis par les objectifs classiques de préentraînement, Funnel-Transformer est capable de reconstruire une représentation profonde pour chaque token à partir de la séquence cachée réduite grâce à un décodeur. Expérimentalement, avec un nombre de FLOPs comparable ou inférieur, Funnel-Transformer surpasse le Transformer standard sur une large gamme de tâches de prédiction sur séquences, incluant la classification de texte, l’understanding du langage et la compréhension de lecture. Le code source et les points de contrôle préentraînés sont disponibles à l’adresse suivante : https://github.com/laiguokun/Funnel-Transformer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp