Fine-tuning des Transformers pré-entraînés en RNNs

Les modèles Transformers ont surpassé les réseaux de neurones récurrents (RNN) dans la génération de langage naturel. Toutefois, ce gain de performance s’accompagne d’un coût computationnel important, car la complexité du mécanisme d’attention croît quadratiquement avec la longueur des séquences. Des variantes efficaces des Transformers ont récemment suscité un intérêt croissant dans la littérature. Parmi celles-ci, une variante récurrente à complexité linéaire s’est avérée particulièrement adaptée à la génération autoregressive. Elle approche l’attention softmax à l’aide de fonctions d’application aléatoires ou heuristiques, mais peut s’avérer difficile à entraîner et conduire à une précision sous-optimale. Ce travail vise à transformer un modèle Transformer préentraîné en sa version récurrente efficace, afin d’améliorer l’efficacité tout en préservant la précision. Plus précisément, nous proposons une procédure « swap-then-finetune » : dans un modèle Transformer préentraîné disponible, nous remplaçons l’attention softmax par son alternative récurrente à complexité linéaire, puis procédons à un finetuning. Grâce à une carte de fonction apprise, notre approche offre un meilleur compromis entre efficacité et précision par rapport au Transformer standard et aux autres variantes récurrentes. Nous démontrons également que le processus de finetuning présente un coût d’entraînement plus faible que l’entraînement de ces variantes récurrentes à partir de zéro. Étant donné que de nombreux modèles destinés aux tâches de traitement du langage naturel s’appuient de plus en plus sur des Transformers préentraînés à grande échelle, ce travail présente une approche viable pour améliorer l’efficacité de l’inférence sans avoir à répéter le processus coûteux d’entraînement préalable.