il y a un mois

Réseaux Neuronaux Récursifs Rapides-Lents

Asier Mujika; Florian Meier; Angelika Steger

Résumé

Le traitement de données séquentielles de longueur variable constitue un défi majeur dans une large gamme d'applications, telles que la reconnaissance vocale, le modélisation de langage, le modélisation d'images génératives et la traduction automatique. Dans cet article, nous relevons ce défi en proposant une nouvelle architecture de réseau neuronal récurrent (RNN), le Fast-Slow RNN (FS-RNN). Le FS-RNN intègre les avantages des RNNs à échelle multiple et des RNNs à transition profonde, car il traite les données séquentielles sur différentes échelles temporelles et apprend des fonctions de transition complexes d'un pas de temps à l'autre. Nous évaluons le FS-RNN sur deux ensembles de données de modélisation de langage au niveau des caractères, Penn Treebank et Hutter Prize Wikipedia, où nous améliorons les résultats actuels pour atteindre respectivement $1{,}19$ et $1{,}25$ bits par caractère (BPC). De plus, un ensemble de deux FS-RNNs atteint $1{,}20$ BPC sur Hutter Prize Wikipedia, surpassant ainsi l'algorithme de compression le mieux connu en termes de mesure BPC. Nous présentons également une enquête empirique sur l'apprentissage et la dynamique du réseau du FS-RNN, qui explique les performances améliorées par rapport aux autres architectures RNN. Notre approche est générale car tout type de cellule RNN peut être utilisé comme bloc de construction pour l'architecture FS-RNN, permettant ainsi une application flexible à différentes tâches.