Command Palette
Search for a command to run...
Apprentissage Progressif des Réseaux de Neurones Récurents
Apprentissage Progressif des Réseaux de Neurones Récurents
Ziv Aharoni Gal Rattner Haim Permuter
Résumé
Les Réseaux de Neurones Récurents (RNNs) obtiennent des résultats de pointe dans de nombreuses tâches de modélisation séquence-à-séquence. Cependant, les RNNs sont difficiles à entraîner et ont tendance à souffrir de surapprentissage. Guidés par l'Inégalité du Traitement des Données (Data Processing Inequality, DPI), nous formulons le réseau multicouche comme une chaîne de Markov, introduisant une méthode d'entraînement qui consiste à entraîner le réseau progressivement et à utiliser un découpage des gradients couche par couche (layer-wise gradient clipping). Nous avons constaté que l'application de nos méthodes, combinée avec des techniques de régularisation et d'optimisation précédemment introduites, a permis d'améliorer les architectures de pointe utilisées dans les tâches de modélisation linguistique.