Ensemble De Données De Modélisation Du Langage De Dépendance À Long Terme WikiText Ensemble De Données De Modélisation Du Langage De Dépendance À Long Terme WikiText
Date
il y a 2 ans
Taille
373.28 MB
URL de publication
L'ensemble de données de modélisation linguistique à long terme de WikiText contient 100 millions de mots anglais, provenant d'articles de haute qualité et d'articles de référence de Wikipédia.
L'ensemble de données est divisé en deux versions : WikiText-2 et WikiText-103. Comparé au vocabulaire PTB, il est plus vaste et chaque mot conserve également l'article original pertinent, ce qui convient aux scénarios qui nécessitent une dépendance à long terme à la modélisation du langage naturel.
Cet ensemble de données a été publié par Salesforce Research en 2016, les principaux éditeurs étant Stephen Merity, Caiming Xiong, James Bradbury et Richard Socher. L'article connexe est « Pointer Sentinel Mixture Models ».
WikiText Long Term Dependency Language Modeling Dataset.torrent
Partage 4Téléchargement 0Terminés 1,080Téléchargements totaux 2,080