HyperAIHyperAI
il y a un mois

Apprentissage Progressif des Réseaux de Neurones Récurents

Ziv Aharoni; Gal Rattner; Haim Permuter
Apprentissage Progressif des Réseaux de Neurones Récurents
Résumé

Les Réseaux de Neurones Récurents (RNNs) obtiennent des résultats de pointe dans de nombreuses tâches de modélisation séquence-à-séquence. Cependant, les RNNs sont difficiles à entraîner et ont tendance à souffrir de surapprentissage. Guidés par l'Inégalité du Traitement des Données (Data Processing Inequality, DPI), nous formulons le réseau multicouche comme une chaîne de Markov, introduisant une méthode d'entraînement qui consiste à entraîner le réseau progressivement et à utiliser un découpage des gradients couche par couche (layer-wise gradient clipping). Nous avons constaté que l'application de nos méthodes, combinée avec des techniques de régularisation et d'optimisation précédemment introduites, a permis d'améliorer les architectures de pointe utilisées dans les tâches de modélisation linguistique.