HyperAIHyperAI

Command Palette

Search for a command to run...

Proof-Pile-2 수학 데이터 세트

날짜

2년 전

크기

47.57 GB

조직

Featured Image

Proof-Pile-2는 550억 개의 수학 및 과학 문서로 구성된 토큰화된 데이터 세트입니다. 2023년 4월 기준의 과학 논문, 수학 관련 웹 콘텐츠 및 수학 코드를 혼합한 것입니다(린 증명 단계의 특정 하위 집합 제외). 이 데이터 세트는 Llemma 7B 및 Llemma 34B 모델을 훈련하기 위해 만들어졌습니다. 이는 세 개의 하위 집합으로 구성됩니다.

  • arxiv (290억 토큰): RedPajama의 ArXiv 하위 세트
  • open-web-math (150억 토큰):오픈웹매스 인터넷에서 수집한 많은 고품질 수학 텍스트를 포함하는 데이터 세트입니다.
  • algebraic-stack (11B 토큰): 수치 컴퓨팅, 컴퓨터 대수학, 형식 수학을 포괄하는 수학 코드의 새로운 데이터 세트입니다.
proof-pile-2.torrent
시딩 2다운로드 중 0완료됨 181총 다운로드 수 363
  • proof-pile-2/
    • README.md
      1.37 KB
    • README.txt
      2.73 KB
      • data/
        • proof-pile-2.zip
          47.57 GB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp