HyperAIHyperAI
il y a un mois

Benchmarck d'un milliard de mots pour mesurer les progrès dans la modélisation statistique des langages

Ciprian Chelba; Tomas Mikolov; Mike Schuster; Qi Ge; Thorsten Brants; Phillipp Koehn; Tony Robinson
Benchmarck d'un milliard de mots pour mesurer les progrès dans la modélisation statistique des langages
Résumé

Nous proposons un nouveau corpus de référence pour évaluer les progrès dans le domaine du modèle de langage statistique. Composé d'environ un milliard de mots de données d'entraînement, nous espérons que ce corpus servira à évaluer rapidement les nouvelles techniques de modélisation de langage et à comparer leur apport lorsqu'elles sont combinées avec d'autres techniques avancées. Nous présentons les performances de plusieurs types bien connus de modèles de langage, avec les meilleurs résultats obtenus par un modèle de langage basé sur un réseau neuronal récurrent. Le modèle 5-gramme Kneser-Ney non élagué atteint une perplexité de 67,6 ; une combinaison de techniques permet une réduction de 35 % de la perplexité ou une réduction de 10 % de l'entropie croisée (bits) par rapport à cette base.Le corpus de référence est disponible en tant que projet sur code.google.com ; outre les scripts nécessaires pour reconstruire les données d'entraînement et les données mises de côté, il fournit également des valeurs de probabilité logarithmique pour chaque mot dans chacun des dix jeux de données mis de côté, pour chacun des modèles n-gramme basiques.

Benchmarck d'un milliard de mots pour mesurer les progrès dans la modélisation statistique des langages | Articles de recherche récents | HyperAI