HyperAIHyperAI
il y a un mois

Une Application Théoriquement Fondée du Dropout dans les Réseaux de Neurones Récurents

Yarin Gal; Zoubin Ghahramani
Une Application Théoriquement Fondée du Dropout dans les Réseaux de Neurones Récurents
Résumé

Les réseaux de neurones récurrents (RNNs) se trouvent à l'avant-garde de nombreux développements récents en apprentissage profond. Cependant, une difficulté majeure avec ces modèles est leur tendance à surapprendre, et il a été démontré que la technique du dropout échoue lorsqu'elle est appliquée aux couches récurrentes. Des résultats récents à la croisée du modèle bayésien et de l'apprentissage profond offrent une interprétation bayésienne des techniques courantes d'apprentissage profond telles que le dropout. Cette mise en contexte du dropout dans l'inférence bayésienne approximative suggère une extension des résultats théoriques, apportant des éclairages sur l'utilisation du dropout avec les modèles RNN. Nous appliquons cette nouvelle technique de dropout basée sur l'inférence variationnelle dans les modèles LSTM et GRU, en l'évaluant sur des tâches de modélisation de langage et d'analyse de sentiments. L'approche nouvelle surpassent les techniques existantes, et selon nos connaissances, elle améliore l'état de l'art pour un seul modèle en modélisation de langage avec le Penn Treebank (perplexité de test 73,4). Ceci étend notre arsenal d'outils variationnels en apprentissage profond.

Une Application Théoriquement Fondée du Dropout dans les Réseaux de Neurones Récurents | Articles de recherche récents | HyperAI