Proof-Pile-2 数学データセット

Proof-Pile-2 は、550 億件の数学的および科学的文書を含むトークン データセットです。科学論文、数学関連の Web コンテンツ、および数学コードを組み合わせたもので、2023 年 4 月時点の知識が含まれています (リーン証明ステップの特定のサブセットを除く)。このデータセットは、Llemma 7B および Llemma 34B モデルをトレーニングするために作成されました。
これは 3 つのサブセットで構成されます。
arxiv
(29B トークン): RedPajama の ArXiv サブセットopen-web-math
(15B トークン):OpenWebMath インターネットからの高品質な数学テキストを多数含むデータセット。algebraic-stack
(11B トークン): 数値計算、コンピューター代数、形式数学を含む数学コードの新しいデータセット。
proof-pile-2.torrent
シーディング 1ダウンロード中 2ダウンロード完了 82総ダウンロード数 151