il y a 2 mois

Réseaux Residual Shuffle-Exchange pour le Traitement Rapide de Séquences Longues

Andis Draguns; Emīls Ozoliņš; Agris Šostaks; Matīss Apinis; Kārlis Freivalds

Résumé

L'attention est un mécanisme couramment utilisé dans le traitement de séquences, mais sa complexité en O(n²) limite son application aux séquences longues. Le réseau neuronal Shuffle-Exchange récemment introduit offre une alternative plus efficace en termes de calcul, permettant de modéliser les dépendances à longue portée en temps O(n log n). Cependant, ce modèle est assez complexe, impliquant un mécanisme de porte sophistiqué dérivé de l'Unité Récursive Gérée (Gated Recurrent Unit). Dans cet article, nous présentons une variante simple et légère du réseau Shuffle-Exchange, basée sur un réseau résiduel utilisant GELU et la Normalisation par Couche (Layer Normalization). L'architecture proposée non seulement s'étend aux séquences plus longues, mais converge également plus rapidement et offre une meilleure précision. Elle surpasse le réseau Shuffle-Exchange dans la tâche de modélisation linguistique LAMBADA et atteint des performances d'état de l'art sur le jeu de données MusicNet pour la transcription musicale tout en étant efficace en termes de nombre de paramètres. Nous montrons comment combiner le réseau Shuffle-Exchange amélioré avec des couches convolutives, établissant ainsi son utilité comme bloc de construction dans les applications de traitement de séquences longues.