HyperAI
Command Palette
Search for a command to run...

Proof-Pile-2는 550억 개의 수학 및 과학 문서로 구성된 토큰화된 데이터 세트입니다. 2023년 4월 기준의 과학 논문, 수학 관련 웹 콘텐츠 및 수학 코드를 혼합한 것입니다(린 증명 단계의 특정 하위 집합 제외). 이 데이터 세트는 Llemma 7B 및 Llemma 34B 모델을 훈련하기 위해 만들어졌습니다. 이는 세 개의 하위 집합으로 구성됩니다.
arxiv(290억 토큰): RedPajama의 ArXiv 하위 세트open-web-math(150억 토큰):오픈웹매스 인터넷에서 수집한 많은 고품질 수학 텍스트를 포함하는 데이터 세트입니다.algebraic-stack(11B 토큰): 수치 컴퓨팅, 컴퓨터 대수학, 형식 수학을 포괄하는 수학 코드의 새로운 데이터 세트입니다.
proof-pile-2.torrent
시딩 2다운로드 중 0완료됨 181총 다운로드 수 363
이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.