HyperAIHyperAI

Command Palette

Search for a command to run...

Représentations d'entrée adaptatives pour la modélisation linguistique neuronale

Alexei Baevski Michael Auli

Résumé

Nous présentons des représentations d'entrée adaptatives pour le modélisation linguistique neuronale qui étendent l'adaptive softmax de Grave et al. (2017) aux représentations d'entrée de capacité variable. Il existe plusieurs options pour la factorisation des couches d'entrée et de sortie, ainsi que pour la modélisation des mots, des caractères ou des unités sous-mot. Nous effectuons une comparaison systématique des choix populaires dans le cadre d'une architecture à attention auto-adaptative. Nos expériences montrent que les modèles équipés de plongements adaptatifs s'entraînent plus de deux fois plus rapidement que le réseau neuronal convolutif (CNN) d'entrée par caractère populaire tout en ayant un nombre inférieur de paramètres. Sur le benchmark WikiText-103, nous obtenons une perplexité de 18,7, soit une amélioration de 10,5 points de perplexité par rapport au meilleur résultat publié précédemment. Sur le benchmark Billion Word, nous atteignons une perplexité de 23,02.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp