HyperAIHyperAI

Command Palette

Search for a command to run...

Benchmarck d'un milliard de mots pour mesurer les progrès dans la modélisation statistique des langages

Ciprian Chelba Tomas Mikolov Mike Schuster Qi Ge Thorsten Brants Phillipp Koehn Tony Robinson

Résumé

Nous proposons un nouveau corpus de référence pour évaluer les progrès dans le domaine du modèle de langage statistique. Composé d'environ un milliard de mots de données d'entraînement, nous espérons que ce corpus servira à évaluer rapidement les nouvelles techniques de modélisation de langage et à comparer leur apport lorsqu'elles sont combinées avec d'autres techniques avancées. Nous présentons les performances de plusieurs types bien connus de modèles de langage, avec les meilleurs résultats obtenus par un modèle de langage basé sur un réseau neuronal récurrent. Le modèle 5-gramme Kneser-Ney non élagué atteint une perplexité de 67,6 ; une combinaison de techniques permet une réduction de 35 % de la perplexité ou une réduction de 10 % de l'entropie croisée (bits) par rapport à cette base.Le corpus de référence est disponible en tant que projet sur code.google.com ; outre les scripts nécessaires pour reconstruire les données d'entraînement et les données mises de côté, il fournit également des valeurs de probabilité logarithmique pour chaque mot dans chacun des dix jeux de données mis de côté, pour chacun des modèles n-gramme basiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp