Command Palette
Search for a command to run...

Proof-Pile-2 は、550 億件の数学的および科学的文書を含むトークン データセットです。科学論文、数学関連の Web コンテンツ、および数学コードを組み合わせたもので、2023 年 4 月時点の知識が含まれています (リーン証明ステップの特定のサブセットを除く)。このデータセットは、Llemma 7B および Llemma 34B モデルをトレーニングするために作成されました。
これは 3 つのサブセットで構成されます。
arxiv(29B トークン): RedPajama の ArXiv サブセットopen-web-math(15B トークン):OpenWebMath インターネットからの高品質な数学テキストを多数含むデータセット。algebraic-stack(11B トークン): 数値計算、コンピューター代数、形式数学を含む数学コードの新しいデータセット。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.