Command Palette

Search for a command to run...

Proof-Pile-2 수학 데이터 세트

날짜

2년 전

크기

47.57 GB

기관

프린스턴 대학교
Featured Image

Proof-Pile-2는 550억 개의 수학 및 과학 문서로 구성된 토큰화된 데이터 세트입니다. 2023년 4월 기준의 과학 논문, 수학 관련 웹 콘텐츠 및 수학 코드를 혼합한 것입니다(린 증명 단계의 특정 하위 집합 제외). 이 데이터 세트는 Llemma 7B 및 Llemma 34B 모델을 훈련하기 위해 만들어졌습니다.

이는 세 개의 하위 집합으로 구성됩니다.

  • arxiv (290억 토큰): RedPajama의 ArXiv 하위 세트
  • open-web-math (150억 토큰):오픈웹매스 인터넷에서 수집한 많은 고품질 수학 텍스트를 포함하는 데이터 세트입니다.
  • algebraic-stack (11B 토큰): 수치 컴퓨팅, 컴퓨터 대수학, 형식 수학을 포괄하는 수학 코드의 새로운 데이터 세트입니다.
proof-pile-2.torrent
시딩 2다운로드 중 0완료됨 151총 다운로드 횟수 277
  • proof-pile-2/
    • README.md
      1.37 KB
    • README.txt
      2.73 KB
      • data/
        • proof-pile-2.zip
          47.57 GB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Proof-Pile-2 수학 데이터 세트 | 데이터셋 | HyperAI초신경