HyperAI

L'ensemble de données de modélisation linguistique à long terme de WikiText contient 100 millions de mots anglais, provenant d'articles de haute qualité et d'articles de référence de Wikipédia.

L'ensemble de données est divisé en deux versions : WikiText-2 et WikiText-103. Comparé au vocabulaire PTB, il est plus vaste et chaque mot conserve également l'article original pertinent, ce qui convient aux scénarios qui nécessitent une dépendance à long terme à la modélisation du langage naturel.

Cet ensemble de données a été publié par Salesforce Research en 2016, les principaux éditeurs étant Stephen Merity, Caiming Xiong, James Bradbury et Richard Socher. L'article connexe est « Pointer Sentinel Mixture Models ».

Ensemble De Données De Modélisation Du Langage De Dépendance À Long Terme WikiText Ensemble De Données De Modélisation Du Langage De Dépendance À Long Terme WikiText