Une Évaluation Empirique des Réseaux de Neurones Convolutifs et Récursifs Génériques pour la Modélisation de Séquences

Pour la plupart des praticiens de l'apprentissage profond, le modèle de séquence est synonyme de réseaux récurrents. Cependant, les résultats récents montrent que les architectures par convolution peuvent surpasser les réseaux récurrents dans des tâches telles que la synthèse audio et la traduction automatique. Face à une nouvelle tâche ou un nouveau jeu de données pour le modèle de séquence, quelle architecture devrait-on utiliser ? Nous menons une évaluation systématique des architectures génériques par convolution et récurrentes pour le modèle de séquence. Les modèles sont évalués sur un large éventail de tâches standards couramment utilisées pour évaluer les performances des réseaux récurrents. Nos résultats indiquent qu'une architecture simple par convolution surpasse les réseaux récurrents canoniques tels que les LSTM sur une variété de tâches et de jeux de données, tout en démontrant une mémoire efficace plus longue. Nous concluons que l'association courante entre le modèle de séquence et les réseaux récurrents doit être remise en question, et que les réseaux par convolution doivent être considérés comme un point de départ naturel pour les tâches de modélisation de séquences. Pour aider les travaux connexes, nous avons rendu le code disponible à l'adresse http://github.com/locuslab/TCN .