WikiText 長期依存関係言語モデリング データセット 長期依存関係言語モデリング データセット

WikiText は言語モデリング データ セットに長期的に依存しており、Wikipedia の高品質な記事とベンチマーク記事から得られた 1 億語の英単語が含まれています。

このデータセットは WikiText-2 と WikiText-103 の 2 つのバージョンに分かれており、PTB 語彙データベースよりも大きく、各語彙には関連するオリジナルの記事も保持されており、長期的な依存関係を必要とする自然言語モデリングに適しています。 。

このデータセットは、2016 年に Salesforce Research によってリリースされました。主な発行者は、Stephen Merity、Caiming Xiong、James Bradbury、Richard Socher です。関連論文には、「Pointer Sentinel Mixture Models」などがあります。

WikiText Long Term Dependency Language Modeling Dataset.torrent

做种 4

下载中 0

已完成 1,026

总下载 2,000

  • WikiText Long Term Dependency Language Modeling Dataset/
    • README.md
      1.46 KB
    • README.txt
      2.92 KB
      • data/
        • wikitext-103-raw-v1.zip
          183.09 MB
        • wikitext-103-v1.zip
          364.51 MB
        • wikitext-2-raw-v1.zip
          369.01 MB
        • wikitext-2-v1.zip
          373.28 MB
        • 新建文本文档.txt
          373.28 MB