HyperAIHyperAI

Command Palette

Search for a command to run...

Une Évaluation Empirique des Réseaux de Neurones Convolutifs et Récursifs Génériques pour la Modélisation de Séquences

Shaojie Bai¹ J. Zico Kolter² Vladlen Koltun³

Résumé

Pour la plupart des praticiens de l'apprentissage profond, le modèle de séquence est synonyme de réseaux récurrents. Cependant, les résultats récents montrent que les architectures par convolution peuvent surpasser les réseaux récurrents dans des tâches telles que la synthèse audio et la traduction automatique. Face à une nouvelle tâche ou un nouveau jeu de données pour le modèle de séquence, quelle architecture devrait-on utiliser ? Nous menons une évaluation systématique des architectures génériques par convolution et récurrentes pour le modèle de séquence. Les modèles sont évalués sur un large éventail de tâches standards couramment utilisées pour évaluer les performances des réseaux récurrents. Nos résultats indiquent qu'une architecture simple par convolution surpasse les réseaux récurrents canoniques tels que les LSTM sur une variété de tâches et de jeux de données, tout en démontrant une mémoire efficace plus longue. Nous concluons que l'association courante entre le modèle de séquence et les réseaux récurrents doit être remise en question, et que les réseaux par convolution doivent être considérés comme un point de départ naturel pour les tâches de modélisation de séquences. Pour aider les travaux connexes, nous avons rendu le code disponible à l'adresse http://github.com/locuslab/TCN .


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp