WikiText は言語モデリング データ セットに長期的に依存しており、Wikipedia の高品質な記事とベンチマーク記事から得られた 1 億語の英単語が含まれています。
このデータセットは WikiText-2 と WikiText-103 の 2 つのバージョンに分かれており、PTB 語彙データベースよりも大きく、各語彙には関連するオリジナルの記事も保持されており、長期的な依存関係を必要とする自然言語モデリングに適しています。 。
このデータセットは、2016 年に Salesforce Research によってリリースされました。主な発行者は、Stephen Merity、Caiming Xiong、James Bradbury、Richard Socher です。関連論文には、「Pointer Sentinel Mixture Models」などがあります。
做种 4
下载中 0
已完成 1,026
总下载 2,000