R-Transformer : Réseau de Neurones Récursif Amélioré Transformer

Les Réseaux de Neurones Récursifs (RNN) ont longtemps été le choix dominant pour la modélisation des séquences. Cependant, ils souffrent gravement de deux problèmes : une inefficacité à capturer les dépendances à très long terme et l'impossibilité de paralléliser le processus de calcul séquentiel. Par conséquent, de nombreux modèles non récursifs basés sur des opérations de convolution et d'attention ont été proposés récemment. En particulier, les modèles utilisant l'attention multi-têtes, comme le Transformer, ont montré une extrême efficacité dans la capture des dépendances à long terme dans diverses tâches de modélisation des séquences. Malgré leur succès, ces modèles manquent cependant d'éléments nécessaires pour modéliser les structures locales dans les séquences et s'appuient fortement sur les plongements positionnels (position embeddings), dont les effets sont limités et qui nécessitent un effort considérable de conception. Dans cet article, nous proposons le R-Transformer, qui combine les avantages des RNN et du mécanisme d'attention multi-têtes tout en évitant leurs inconvénients respectifs. Le modèle proposé peut capturer efficacement à la fois les structures locales et les dépendances globales à long terme dans les séquences sans utiliser aucun plongement positionnel. Nous évaluons le R-Transformer grâce à des expériences approfondies sur des données provenant d'un large éventail de domaines, et les résultats empiriques montrent que le R-Transformer surpassent largement les méthodes de pointe dans la plupart des tâches. Nous avons rendu le code publiquement disponible à l'adresse \url{https://github.com/DSE-MSU/R-transformer}.