HyperAI초신경

Firefly Chinese Llama2 증분형 사전 학습 데이터 세트

날짜

일 년 전

크기

9.02 GB

발행 주소

huggingface.co

데이터 세트는 반딧불이-LLaMA2-중국 프로젝트 증분형 사전 학습 데이터는 총 22GB의 텍스트로 구성되어 있으며, 주로 연구팀이 수집한 CLUE, ThucNews, CNews, COIG, Wikipedia, 고대시, 산문, 고전 중국어 등의 오픈소스 데이터 세트를 포함합니다. 데이터 분포는 아래 그림과 같습니다.

firefly-pretrain-dataset.torrent
시딩 1다운로드 중 1완료됨 79총 다운로드 횟수 109
  • firefly-pretrain-dataset/
    • README.md
      1.04 KB
    • README.txt
      2.09 KB
      • data/
        • firefly-pretrain-dataset.zip
          9.02 GB