Proof-Pile-2 수학 데이터 세트

Proof-Pile-2는 550억 개의 수학 및 과학 문서로 구성된 토큰화된 데이터 세트입니다. 2023년 4월 기준의 과학 논문, 수학 관련 웹 콘텐츠 및 수학 코드를 혼합한 것입니다(린 증명 단계의 특정 하위 집합 제외). 이 데이터 세트는 Llemma 7B 및 Llemma 34B 모델을 훈련하기 위해 만들어졌습니다.
이는 세 개의 하위 집합으로 구성됩니다.
arxiv
(290억 토큰): RedPajama의 ArXiv 하위 세트open-web-math
(150억 토큰):오픈웹매스 인터넷에서 수집한 많은 고품질 수학 텍스트를 포함하는 데이터 세트입니다.algebraic-stack
(11B 토큰): 수치 컴퓨팅, 컴퓨터 대수학, 형식 수학을 포괄하는 수학 코드의 새로운 데이터 세트입니다.
proof-pile-2.torrent
시딩 1다운로드 중 2완료됨 85총 다운로드 횟수 152