HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux Residual Shuffle-Exchange pour le Traitement Rapide de Séquences Longues

Andis Draguns; Emīls Ozoliņš; Agris Šostaks; Matīss Apinis; Kārlis Freivalds

Résumé

L'attention est un mécanisme couramment utilisé dans le traitement de séquences, mais sa complexité en O(n²) limite son application aux séquences longues. Le réseau neuronal Shuffle-Exchange récemment introduit offre une alternative plus efficace en termes de calcul, permettant de modéliser les dépendances à longue portée en temps O(n log n). Cependant, ce modèle est assez complexe, impliquant un mécanisme de porte sophistiqué dérivé de l'Unité Récursive Gérée (Gated Recurrent Unit). Dans cet article, nous présentons une variante simple et légère du réseau Shuffle-Exchange, basée sur un réseau résiduel utilisant GELU et la Normalisation par Couche (Layer Normalization). L'architecture proposée non seulement s'étend aux séquences plus longues, mais converge également plus rapidement et offre une meilleure précision. Elle surpasse le réseau Shuffle-Exchange dans la tâche de modélisation linguistique LAMBADA et atteint des performances d'état de l'art sur le jeu de données MusicNet pour la transcription musicale tout en étant efficace en termes de nombre de paramètres. Nous montrons comment combiner le réseau Shuffle-Exchange amélioré avec des couches convolutives, établissant ainsi son utilité comme bloc de construction dans les applications de traitement de séquences longues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp