한국어

Firefly Chinese Llama2 증분형 사전 학습 데이터 세트

날짜

2년 전

크기

9.02 GB

태그

대형 모델

데이터셋 다운로드

Discord 커뮤니티 참여

데이터 세트는 반딧불이-LLaMA2-중국 프로젝트 증분형 사전 학습 데이터는 총 22GB의 텍스트로 구성되어 있으며, 주로 연구팀이 수집한 CLUE, ThucNews, CNews, COIG, Wikipedia, 고대시, 산문, 고전 중국어 등의 오픈소스 데이터 세트를 포함합니다. 데이터 분포는 아래 그림과 같습니다.

firefly-pretrain-dataset.torrent

시딩 2다운로드 중 0완료됨 156총 다운로드 횟수 221

firefly-pretrain-dataset/
- README.md
  1.04 KB
- README.txt
  2.09 KB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

Firefly Chinese Llama2 증분형 사전 학습 데이터 세트

AI로 AI 구축

Hyper Newsletters