HyperAIHyperAI

Command Palette

Search for a command to run...

Fine-tuning des Transformers pré-entraînés en RNNs

Jungo Kasai Hao Peng Yizhe Zhang Dani Yogatama Gabriel Ilharco Nikolaos Pappas Yi Mao Weizhu Chen Noah A. Smith

Résumé

Les modèles Transformers ont surpassé les réseaux de neurones récurrents (RNN) dans la génération de langage naturel. Toutefois, ce gain de performance s’accompagne d’un coût computationnel important, car la complexité du mécanisme d’attention croît quadratiquement avec la longueur des séquences. Des variantes efficaces des Transformers ont récemment suscité un intérêt croissant dans la littérature. Parmi celles-ci, une variante récurrente à complexité linéaire s’est avérée particulièrement adaptée à la génération autoregressive. Elle approche l’attention softmax à l’aide de fonctions d’application aléatoires ou heuristiques, mais peut s’avérer difficile à entraîner et conduire à une précision sous-optimale. Ce travail vise à transformer un modèle Transformer préentraîné en sa version récurrente efficace, afin d’améliorer l’efficacité tout en préservant la précision. Plus précisément, nous proposons une procédure « swap-then-finetune » : dans un modèle Transformer préentraîné disponible, nous remplaçons l’attention softmax par son alternative récurrente à complexité linéaire, puis procédons à un finetuning. Grâce à une carte de fonction apprise, notre approche offre un meilleur compromis entre efficacité et précision par rapport au Transformer standard et aux autres variantes récurrentes. Nous démontrons également que le processus de finetuning présente un coût d’entraînement plus faible que l’entraînement de ces variantes récurrentes à partir de zéro. Étant donné que de nombreux modèles destinés aux tâches de traitement du langage naturel s’appuient de plus en plus sur des Transformers préentraînés à grande échelle, ce travail présente une approche viable pour améliorer l’efficacité de l’inférence sans avoir à répéter le processus coûteux d’entraînement préalable.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp