HyperAI초신경

MathPile 수학적 추론 사전 훈련된 코퍼스

날짜

일 년 전

기관

상하이 교통대학교

발행 주소

huggingface.co

라이선스

其他

카테고리

다운로드 도움말

MathPile은 약 95억 개의 토큰을 포함하는 다양하고 고품질의 수학 중심 코퍼스입니다. 이 데이터 세트는 다음과 같은 특성에서 이전 데이터 세트와 크게 다릅니다.

  • 수학 중심:MathPile은 Pile 및 RedPajama와 같이 일반 분야에 초점을 맞춘 코퍼스나 ROOTS 및 The Stack과 같이 여러 언어에 초점을 맞춘 코퍼스와 달리 수학 분야에 서비스를 제공하는 데 중점을 둡니다. 수학 중심의 코퍼스가 있기는 하지만 Google의 Minerva와 OpenAI의 MathMix처럼 폐쇄 소스이거나 ProofPile과 OpenWebMath처럼 다양성이 부족합니다.
  • 다양성:MathPile은 다양한 출처에서 데이터를 수집합니다.교과서(강의 노트 포함), arXiv, Wikipedia, ProofWiki, StackExchange, 웹 페이지.여기에는 K-12, 대학, 대학원 수준 및 수학 경시대회에 적합한 수학 콘텐츠가 포함되어 있습니다.특히 연구팀은 고품질 교과서(약 0.19B 토큰)를 대량으로 공개했습니다.
  • 고품질: 연구팀은 '적은 것이 더 많다'는 원칙을 고수하며, 사전 학습 단계에서도 양보다 데이터의 질이 우수하다고 굳게 믿고 있습니다. 연구팀의 꼼꼼한 데이터 수집 및 처리 노력에는 정교한 전처리, 사전 검토, 정리, 필터링 및 중복 제거 제품군이 포함되어 연구팀의 자료의 높은 품질을 보장했습니다.
  • 데이터 문서화: 투명성을 높이기 위해 연구팀은 MathPile에 대한 내용을 광범위하게 문서화했습니다. 여기에는 데이터 세트 테이블(논문의 표 5 참조)과 언어 식별 점수, 토큰-단어 비율과 같은 웹 소스 파일에 대한 품질 주석이 포함됩니다. 이를 통해 사용자는 자신의 필요에 맞게 데이터를 조정할 수 있는 유연성을 얻습니다.연구팀은 또한 MATH와 MMLU-STEM과 같은 벤치마크 테스트 세트에서 중복을 제거하기 위해 데이터 오염 탐지를 수행했습니다.