HyperAI초신경

MathPile-상업용 수학적 추론 사전 훈련 코퍼스(상업용 버전)

날짜

일 년 전

기관

상하이 교통대학교

발행 주소

huggingface.co

카테고리

다운로드 도움말

MathPile-Commercial은 MathPile의 상용 버전입니다.이는 상업적 사용을 금지하는 MathPile의 문서를 제거하여 얻었습니다(최신 버전, v0.2). 구체적으로 연구팀은 arXiv 소스의 메타데이터에 있는 라이선스 정보와 다른 소스에 대한 키워드 매칭을 활용해 비상업적 사용을 위한 소스 데이터를 테스트했습니다.

MathPile은 약 95억 개의 토큰을 포함하는 다양하고 고품질의 수학 중심 코퍼스입니다. 이 데이터 세트는 다음과 같은 특성에서 이전 데이터 세트와 크게 다릅니다.

  • 수학 중심:MathPile은 Pile 및 RedPajama와 같이 일반 분야에 초점을 맞춘 코퍼스나 ROOTS 및 The Stack과 같이 여러 언어에 초점을 맞춘 코퍼스와 달리 수학 분야에 서비스를 제공하는 데 중점을 둡니다. 수학 중심의 코퍼스가 있기는 하지만 Google의 Minerva와 OpenAI의 MathMix처럼 폐쇄 소스이거나 ProofPile과 OpenWebMath처럼 다양성이 부족합니다.
  • 다양성:MathPile은 다양한 출처에서 데이터를 수집합니다.교과서(강의 노트 포함), arXiv, Wikipedia, ProofWiki, StackExchange, 웹 페이지.여기에는 K-12, 대학, 대학원 수준 및 수학 경시대회에 적합한 수학 콘텐츠가 포함되어 있습니다.특히 연구팀은 고품질 교과서(약 0.19B 토큰)를 대량으로 공개했습니다.
  • 고품질: 연구팀은 '적은 것이 더 많다'는 원칙을 고수하며, 사전 학습 단계에서도 양보다 데이터의 질이 우수하다고 굳게 믿고 있습니다. 연구팀의 꼼꼼한 데이터 수집 및 처리 노력에는 정교한 전처리, 사전 검토, 정리, 필터링 및 중복 제거 제품군이 포함되어 연구팀의 자료의 높은 품질을 보장했습니다.
  • 데이터 문서화: 투명성을 높이기 위해 연구팀은 MathPile에 대한 내용을 광범위하게 문서화했습니다. 여기에는 데이터 세트 테이블(논문의 표 5 참조)과 언어 식별 점수, 토큰-단어 비율과 같은 웹 소스 파일에 대한 품질 주석이 포함됩니다. 이를 통해 사용자는 자신의 필요에 맞게 데이터를 조정할 수 있는 유연성을 얻습니다.