HyperAI초신경

Proof-Pile-2 수학 데이터 세트

날짜

일 년 전

크기

47.57 GB

기관

프린스턴 대학교

발행 주소

huggingface.co

特色图像

Proof-Pile-2는 550억 개의 수학 및 과학 문서로 구성된 토큰화된 데이터 세트입니다. 2023년 4월 기준의 과학 논문, 수학 관련 웹 콘텐츠 및 수학 코드를 혼합한 것입니다(린 증명 단계의 특정 하위 집합 제외). 이 데이터 세트는 Llemma 7B 및 Llemma 34B 모델을 훈련하기 위해 만들어졌습니다.

이는 세 개의 하위 집합으로 구성됩니다.

  • arxiv (290억 토큰): RedPajama의 ArXiv 하위 세트
  • open-web-math (150억 토큰):오픈웹매스 인터넷에서 수집한 많은 고품질 수학 텍스트를 포함하는 데이터 세트입니다.
  • algebraic-stack (11B 토큰): 수치 컴퓨팅, 컴퓨터 대수학, 형식 수학을 포괄하는 수학 코드의 새로운 데이터 세트입니다.
proof-pile-2.torrent
시딩 1다운로드 중 2완료됨 85총 다운로드 횟수 152
  • proof-pile-2/
    • README.md
      1.37 KB
    • README.txt
      2.73 KB
      • data/
        • proof-pile-2.zip
          47.57 GB