OpenWebMath オープン Web 数学トレーニング データ セット
OpenWebMath は、インターネットからの高品質な数学テキストを主に含むデータセットです。これは、Common Crawl 上の 200B を超える HTML ファイルからフィルタリングおよび抽出され、合計 147 億のトークンを含む 630 万のドキュメントのセットが生成されます。 OpenWebMath は、事前トレーニングおよび微調整大規模な言語モデル。
OpenWebMath.torrent
シーディング 1ダウンロード中 1ダウンロード完了 157総ダウンロード数 212