HyperAI초신경

OpenWebMath Open Web Mathematics 교육 데이터 세트

날짜

일 년 전

크기

44.21 GB

기관

케임브리지 대학교
토론토 대학교

발행 주소

huggingface.co

OpenWebMath는 인터넷의 대부분에서 수집된 고품질 수학 텍스트를 포함하는 데이터 세트입니다. 이는 Common Crawl에서 2000억 개가 넘는 HTML 파일에서 필터링 및 추출되어 총 147억 개의 토큰을 포함하는 630만 개의 문서 세트가 생성됩니다. OpenWebMath는 사전 학습 및미세 조정대규모 언어 모델.

OpenWebMath.torrent
시딩 2다운로드 중 1완료됨 157총 다운로드 횟수 212
  • OpenWebMath/
    • README.md
      1.13 KB
    • README.txt
      2.26 KB
      • data/
        • open-web-math.zip
          44.21 GB