WikiText 長期依存関係言語モデリング データセット 長期依存関係言語モデリング データセット
WikiText は言語モデリング データ セットに長期的に依存しており、Wikipedia の高品質な記事とベンチマーク記事から得られた 1 億語の英単語が含まれています。
このデータセットは WikiText-2 と WikiText-103 の 2 つのバージョンに分かれており、PTB 語彙データベースよりも大きく、各語彙には関連するオリジナルの記事も保持されており、長期的な依存関係を必要とする自然言語モデリングに適しています。 。
このデータセットは、2016 年に Salesforce Research によってリリースされました。主な発行者は、Stephen Merity、Caiming Xiong、James Bradbury、Richard Socher です。関連論文には、「Pointer Sentinel Mixture Models」などがあります。
WikiText Long Term Dependency Language Modeling Dataset.torrent
シーディング 5ダウンロード中 0ダウンロード完了 1,121総ダウンロード数 2,123