HyperAIHyperAI
il y a un mois

Régularisation et Optimisation des Modèles de Langue LSTM

Stephen Merity; Nitish Shirish Keskar; Richard Socher
Régularisation et Optimisation des Modèles de Langue LSTM
Résumé

Les réseaux de neurones récurrents (RNN) tels que les réseaux à mémoire à court et long terme (LSTM) constituent une base fondamentale pour de nombreuses tâches d'apprentissage séquentiel, notamment la traduction automatique, le modèle de langage et la réponse aux questions. Dans cet article, nous examinons le problème spécifique du modèle de langage au niveau des mots et étudions des stratégies de régularisation et d'optimisation pour les modèles basés sur les LSTM. Nous proposons le LSTM avec abandon pondéré (weight-dropped LSTM) qui utilise DropConnect sur les poids cachés-cachés comme forme de régularisation récurrente. De plus, nous introduisons NT-ASGD, une variante de la méthode de gradient stochastique moyennée, où le déclencheur de moyennation est déterminé par une condition non monotone plutôt que réglé par l'utilisateur. En utilisant ces stratégies de régularisation et d'autres, nous obtenons des perplexités au niveau des mots d'avant-garde sur deux ensembles de données : 57,3 sur Penn Treebank et 65,8 sur WikiText-2. En explorant l'efficacité d'un cache neuronal en conjonction avec notre modèle proposé, nous atteignons une perplexité encore plus basse d'avant-garde : 52,8 sur Penn Treebank et 52,0 sur WikiText-2.