HyperAI

Ensemble De Données De Modélisation Du Langage De Dépendance À Long Terme WikiText Ensemble De Données De Modélisation Du Langage De Dépendance À Long Terme WikiText

L'ensemble de données de modélisation linguistique à long terme de WikiText contient 100 millions de mots anglais, provenant d'articles de haute qualité et d'articles de référence de Wikipédia.

L'ensemble de données est divisé en deux versions : WikiText-2 et WikiText-103. Comparé au vocabulaire PTB, il est plus vaste et chaque mot conserve également l'article original pertinent, ce qui convient aux scénarios qui nécessitent une dépendance à long terme à la modélisation du langage naturel.

Cet ensemble de données a été publié par Salesforce Research en 2016, les principaux éditeurs étant Stephen Merity, Caiming Xiong, James Bradbury et Richard Socher. L'article connexe est « Pointer Sentinel Mixture Models ».

WikiText Long Term Dependency Language Modeling Dataset.torrent
Partage 4Téléchargement 0Terminés 1,080Téléchargements totaux 2,080
  • WikiText Long Term Dependency Language Modeling Dataset/
    • README.md
      1.46 KB
    • README.txt
      2.92 KB
      • data/
        • wikitext-103-raw-v1.zip
          183.09 MB
        • wikitext-103-v1.zip
          364.51 MB
        • wikitext-2-raw-v1.zip
          369.01 MB
        • wikitext-2-v1.zip
          373.28 MB
        • 新建文本文档.txt
          373.28 MB