Command Palette

Search for a command to run...

SkyPile-150B 포괄적인 대규모 중국 데이터 세트

날짜

2년 전

기관

Discord 커뮤니티 참여

SkyPile-150B는 대규모 언어 모델의 사전 학습을 위해 특별히 설계된 포괄적인 대규모 중국어 데이터 세트입니다.이는 공개적으로 접근 가능한 수많은 중국 인터넷 웹페이지에서 발췌한 것입니다. 이 데이터 세트는 엄격한 필터링, 광범위한 중복 제거, 철저한 민감 데이터 필터링을 통해 품질이 보장됩니다. 또한 연구자들은 fastText와 BERT와 같은 고급 도구를 사용하여 품질이 낮은 데이터를 걸러냈습니다.

SkyPile-150B 데이터 세트의 공개 부분에는 약 2억 3,300만 개의 웹 페이지가 포함되어 있으며, 각 페이지에는 평균 1,000개 이상의 중국어 문자가 포함되어 있습니다. 이 데이터 세트에는 총 약 1,500억 개의 토큰과 620GB의 일반 텍스트 데이터가 포함되어 있습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp