HyperAIHyperAI
il y a un mois

Une analyse de la modélisation linguistique neuronale à plusieurs échelles

Stephen Merity; Nitish Shirish Keskar; Richard Socher
Une analyse de la modélisation linguistique neuronale à plusieurs échelles
Résumé

De nombreuses approches de pointe en modélisation linguistique introduisent des architectures novatrices, complexes et spécialisées. Nous prenons des modèles de langage existants et de premier plan basés sur les LSTM (Long Short-Term Memory) et les QRNN (Quasi-Recurrent Neural Network) au niveau des mots, et nous les étendons à la fois à des vocabulaires plus vastes et à une granularité au niveau des caractères. Lorsqu'ils sont correctement ajustés, les LSTM et QRNN atteignent des résultats de pointe sur des jeux de données au niveau des caractères (Penn Treebank, enwik8) et au niveau des mots (WikiText-103), respectivement. Ces résultats sont obtenus en seulement 12 heures (WikiText-103) à 2 jours (enwik8) en utilisant une seule carte GPU moderne.