HyperAI초신경

COIG-CQIA 고품질 중국어 교육 미세 조정 데이터 세트

날짜

일 년 전

크기

88.8 MB

기관

제로 원 에브리씽

발행 주소

huggingface.co

카테고리

特色图像

COIG-CQIA는 Chinese Open Instruction Generalist의 약자로, 품질이 곧 전부입니다. 오픈소스 고품질 지침 미세 조정 데이터 세트입니다.인간 상호작용 행동과 일치하는 고품질의 교육 및 미세 조정 데이터를 중국 NLP 커뮤니티에 제공하는 것을 목표로 합니다. COIG-CQIA는 중국 인터넷에서 얻은 질문과 답변, 기사를 원시 데이터로 사용하고, 심층적인 정리, 재구성, 수동 검토를 거쳐 구축되었습니다.

이 프로젝트는 LIMA: 정렬을 위해서는 Less Is More라는 연구에서 영감을 받았습니다. 소량의 고품질 데이터를 사용하면 대규모 언어 모델이 인간 상호 작용 행동을 학습할 수 있습니다. 따라서 데이터 구축에서는 데이터의 출처, 품질, 다양성에 많은 주의를 기울인다. 데이터 세트에 대한 자세한 내용은 데이터 소개와 연구팀의 논문을 참조하세요.

데이터 수집

  • 연구팀은 데이터의 다양성과 풍부함을 확보하기 위해 중국 인터넷의 다양한 출처에서 수작업으로 작성된 텍스트 데이터를 대량으로 수집했습니다.
  • 데이터 출처에는 질의응답 커뮤니티(지후, 사부, 두반, 소홍수, 지바 등)뿐만 아니라 위키형 지식 플랫폼(바이두 백과사전 등), 각종 시험 자료(중·고등학교 입학 시험 문제, 전문자격 시험 문제 등), 기존 NLP 데이터 세트 등이 포함됩니다.
  • 데이터를 수집할 때, 우리는 실제 중국어 사용자의 상호작용 패턴을 반영할 수 있는 관련 데이터를 선택하는 데 중점을 두어 모델이 실제 언어 사용을 더 잘 이해할 수 있도록 돕습니다.

COIG-CQIA.torrent
시딩 1다운로드 중 0완료됨 235총 다운로드 횟수 427
  • COIG-CQIA/
    • README.md
      1.4 KB
    • README.txt
      2.81 KB
      • data/
        • coig.zip
          88.8 MB