HyperAI초신경

공통 코퍼스

날짜

7달 전

기관

발행 주소

huggingface.co

라이선스

非商业用途

다운로드 도움말

Common Corpus는 PleIAs가 2024년에 공개한 2조 개가 넘는 토큰으로 구성된 대규모의 개방형 허가형 텍스트 데이터 세트입니다. 이 데이터 세트는 책, 신문, 과학 기사, 정부 및 법률 문서, 코드 등 다양한 텍스트 유형을 포괄하는 5개의 하위 세트로 구성됩니다. 5개의 하위 세트는 다음과 같습니다.

  • 오픈컬처: 퍼블릭 도메인 도서, 신문, 위키문헌 콘텐츠가 포함되어 있습니다.
  • 오픈거버먼트: SEC, WTO 등의 금융 및 법률 문서가 포함되어 있습니다.
  • 오픈소스: GitHub에 고품질 코드가 포함되어 있습니다.
  • 오픈사이언스: Open Alex 및 프랑스어 논문 등의 학술 콘텐츠가 포함되어 있습니다.
  • 오픈웹: Wikipedia, YouTube Commons, Stack Exchange 등의 사이트의 콘텐츠를 포함합니다.

Common Corpus 데이터는 상업적, 비상업적 목적으로 사용할 수 있으며, 언어 및 연도별로 데이터를 필터링할 수 있습니다. 데이터 세트에서 매우 유해한 콘텐츠와 개인 식별 정보가 제거되었지만 일부 편견과 민감한 정보는 여전히 존재할 수 있습니다. 데이터세트 공개에는 자세한 기술 보고서가 함께 제공되어 투명성과 재현성이 보장됩니다. Common Corpus는 AI Alliance, Jean Zay, Nvidia Inception 프로그램을 포함한 여러 조직과 커뮤니티의 지원을 받고 있습니다.