HyperAI

Common Corpus는 PleIAs가 2024년에 공개한 2조 개가 넘는 토큰으로 구성된 대규모의 개방형 허가형 텍스트 데이터 세트입니다. 이 데이터 세트는 책, 신문, 과학 기사, 정부 및 법률 문서, 코드 등 다양한 텍스트 유형을 포괄하는 5개의 하위 세트로 구성됩니다. 5개의 하위 세트는 다음과 같습니다.

오픈컬처: 퍼블릭 도메인 도서, 신문, 위키문헌 콘텐츠가 포함되어 있습니다.
오픈거버먼트: SEC, WTO 등의 금융 및 법률 문서가 포함되어 있습니다.
오픈소스: GitHub에 고품질 코드가 포함되어 있습니다.
오픈사이언스: Open Alex 및 프랑스어 논문 등의 학술 콘텐츠가 포함되어 있습니다.
오픈웹: Wikipedia, YouTube Commons, Stack Exchange 등의 사이트의 콘텐츠를 포함합니다.

Common Corpus 데이터는 상업적, 비상업적 목적으로 사용할 수 있으며, 언어 및 연도별로 데이터를 필터링할 수 있습니다. 데이터 세트에서 매우 유해한 콘텐츠와 개인 식별 정보가 제거되었지만 일부 편견과 민감한 정보는 여전히 존재할 수 있습니다. 데이터세트 공개에는 자세한 기술 보고서가 함께 제공되어 투명성과 재현성이 보장됩니다. Common Corpus는 AI Alliance, Jean Zay, Nvidia Inception 프로그램을 포함한 여러 조직과 커뮤니티의 지원을 받고 있습니다.

공통 코퍼스

AI로 AI 구축

Hyper Newsletters

Command Palette

공통 코퍼스

AI로 AI 구축

Hyper Newsletters