HyperAI초신경

InfinityInstruct-3M, 1천만 개의 명령어 미세 조정 데이터 세트 출시

날짜

일 년 전

크기

2.79 GB

기관

발행 주소

huggingface.co

카테고리

InfinityInstruct는 베이징 인공지능 아카데미(BAAI)가 시작한 대규모 고품질 오픈소스 교육 미세 조정 데이터 세트 프로젝트입니다. 이 프로젝트의 목표는 대규모 언어 모델에 대한 명령어 추적 기능을 지원하고, 이를 통해 모델 성능을 개선하기 위해 수백만 개의 명령어가 포함된 데이터 세트를 개발하는 것입니다.

이 버전은 InfinityInstruct-3M 명령어 데이터 세트이며, 최종 버전은 6월 말에 출시될 예정입니다.

InfinityInstruct의 특징은 다음과 같습니다.

  1. 대규모 데이터 세트:본 프로젝트는 수천만 건의 명령 데이터를 공개할 계획이며, 1단계에서는 300만 건의 중국어와 영어 명령 데이터가 공개되었습니다.
  2. 고품질 스크리닝:지위안연구소는 기존 오픈소스 데이터에 대한 현장 분석 및 품질 검사를 진행하여 데이터의 높은 가치를 보장하고, 데이터가 부족한 부분을 보강합니다.
  3. 오픈 소스 커뮤니티 기여: 데이터셋 구축 과정에서 오픈소스 커뮤니티는 OpenHermes-2.5, UltraInteract_sft, CodeBagel 등 다양한 소스의 데이터셋을 포함하여 방대한 양의 지침 데이터를 제공했습니다.
  4. 위험 평가 및 데이터 생성: 프로젝트 팀은 현재 위험성 평가와 데이터 생성을 진행하고 있으며, 6월 말까지 1,000만 개의 지침이 포함된 최종 버전을 출시할 예정입니다.
  5. 성능 개선: 현재 오픈소스 300만 명령어 데이터 세트는 Mistral, Openhermes 등 기존 데이터 세트를 능가하는 SFT(Supervised Fine-Tuning) 데이터 역량을 보여주었습니다.
  6. 미래 전망: 데이터 양이 수천만 개로 늘어나면, 명령어 미세조정 데이터 세트를 기반으로 학습된 대화 모델은 GPT-4 수준에 도달할 수 있을 것으로 기대됩니다.

InfinityInstruct 데이터 세트의 개발 및 출시는 대규모 언어 모델의 연구와 응용을 촉진하는 데 매우 중요합니다. 대규모 모델에 대한 풍부한 지침 데이터를 제공하고 모델이 지침을 이해하고 실행하는 능력을 향상시키는 데 도움이 됩니다. 동시에 오픈 소스라는 특성은 AI 커뮤니티 내에서 협업과 지식 공유를 촉진합니다.

InfinityInstruct-3M.torrent
시딩 1다운로드 중 1완료됨 111총 다운로드 횟수 123
  • InfinityInstruct-3M/
    • README.md
      2.44 KB
    • README.txt
      4.88 KB
      • data/
        • Infinity-Instruct.zip
          2.79 GB