il y a un mois

Exploration des limites de la modélisation linguistique

Rafal Jozefowicz; Oriol Vinyals; Mike Schuster; Noam Shazeer; Yonghui Wu

Résumé

Dans cette étude, nous explorons les récentes avancées en matière de Réseaux de Neurones Récursifs pour la modélisation linguistique à grande échelle, une tâche centrale dans la compréhension des langues. Nous étendons les modèles actuels afin de relever deux défis majeurs liés à cette tâche : les tailles des corpus et du vocabulaire, ainsi que la structure complexe et à long terme des langues. Nous menons une étude approfondie sur des techniques telles que les Réseaux de Neurones Convolutifs basés sur les caractères ou la Mémoire à Court et Long Terme (Long-Short Term Memory), en utilisant le Benchmark d'un Milliard de Mots. Notre meilleur modèle unique améliore considérablement l'état de l'art en réduisant la perplexité de 51,3 à 30,0 (tout en diminuant le nombre de paramètres par un facteur de 20), tandis qu'un ensemble de modèles établit un nouveau record en améliorant la perplexité de 41,0 à 23,7. Nous mettons également ces modèles à disposition de la communauté NLP et ML pour qu'elle puisse les étudier et les améliorer.