HyperAI

Résumé

Les réseaux de neurones récurrents (RNN) sont difficiles à entraîner, encore plus ceux présentant une structure spatiale profonde. Des architectures fondées sur des connexions de type « highway », telles que le Recurrent Highway Network (RHN), ont été conçues pour permettre une profondeur plus importante des transitions d’étape en étape, aboutissant à des modèles plus expressifs. Toutefois, les problèmes nécessitant la capture de dépendances à long terme ne sont pas encore correctement résolus par ces modèles. En outre, la capacité à conserver des mémoires à long terme tend à s’atténuer lorsque la profondeur spatiale augmente, car une structure plus profonde peut accélérer le phénomène de disparition du gradient. Dans cet article, nous abordons ces limitations en proposant une nouvelle architecture RNN fondée sur le RHN, nommée Recurrent Highway Network with Grouped Auxiliary Memory (GAM-RHN). Cette architecture interconnecte le RHN avec un ensemble d’unités de mémoire auxiliaires spécifiquement conçues pour stocker des informations à long terme via des opérations de lecture et d’écriture, ce qui rappelle les réseaux de neurones à mémoire augmentée (MANNs). Les résultats expérimentaux sur des tâches artificielles à long délai montrent que les GAM-RHN peuvent être entraînés efficacement tout en étant profonds à la fois dans le temps et dans l’espace. Nous évaluons également l’architecture proposée sur diverses tâches, notamment la modélisation du langage, la classification séquentielle d’images et la prévision des marchés financiers. Les performances de notre approche, qui atteint des résultats de pointe sur ces différentes tâches, démontrent son potentiel.

Benchmarks

Benchmark	Méthodologie	Métriques
language-modelling-on-penn-treebank-character	GAM-RHN-5	Bit per Character (BPC): 1.147 Number of params: 16.0M
language-modelling-on-text8	GAM-RHN-10	Bit per Character (BPC): 1.157 Number of params: 44.7M
sequential-image-classification-on-sequential	GAM-RHN-1	Permuted Accuracy: 96.8%
stock-trend-prediction-on-fi-2010	BL-GAM-RHN-7	Accuracy (H50): 0.8202 F1 (H50): 0.8088

Réseaux de routage récurrents avec mémoire auxiliaire regroupée

{Wei Luo ; Feng Yu}

Résumé

Benchmarks

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Réseaux de routage récurrents avec mémoire auxiliaire regroupée

{Wei Luo ; Feng Yu}

Résumé

Benchmarks

Construire l'IA avec l'IA

Hyper Newsletters