HyperAIHyperAI
il y a un mois

Amélioration de la modélisation linguistique par décodage du passé

Siddhartha Brahma
Amélioration de la modélisation linguistique par décodage du passé
Résumé

Les LSTM fortement régularisées obtiennent des résultats impressionnants sur plusieurs ensembles de données de référence en modélisation de langage. Nous proposons une nouvelle méthode de régularisation basée sur le décodage du dernier jeton dans le contexte à l'aide de la distribution prédite du jeton suivant. Cette approche biaise le modèle vers la conservation d'informations contextuelles plus importantes, améliorant ainsi sa capacité à prédire le jeton suivant. Avec un surcoût négligeable en termes de nombre de paramètres et de temps d'entraînement, notre méthode de régularisation par décodage passé (Past Decode Regularization, PDR) atteint une perplexité au niveau des mots de 55,6 sur l'ensemble de données Penn Treebank et de 63,5 sur l'ensemble de données WikiText-2 en utilisant un seul softmax. Nous montrons également des gains en combinant PDR avec un mélange de softmax, atteignant une perplexité au niveau des mots de 53,8 et 60,5 sur ces ensembles de données. De plus, notre méthode atteint 1,169 bit par caractère sur l'ensemble de données Penn Treebank Character pour la modélisation linguistique au niveau des caractères. Ces résultats représentent un nouvel état de l'art dans leurs configurations respectives.