HyperAI초신경

InfinityInstruct는 베이징 인공지능 아카데미(BAAI)가 시작한 대규모 고품질 오픈소스 교육 미세 조정 데이터 세트 프로젝트입니다. 이 프로젝트의 목표는 대규모 언어 모델에 대한 명령어 추적 기능을 지원하고, 이를 통해 모델 성능을 개선하기 위해 수백만 개의 명령어가 포함된 데이터 세트를 개발하는 것입니다.

이 버전은 InfinityInstruct-3M 명령어 데이터 세트이며, 최종 버전은 6월 말에 출시될 예정입니다.

InfinityInstruct의 특징은 다음과 같습니다.

대규모 데이터 세트：본 프로젝트는 수천만 건의 명령 데이터를 공개할 계획이며, 1단계에서는 300만 건의 중국어와 영어 명령 데이터가 공개되었습니다.
고품질 스크리닝：지위안연구소는 기존 오픈소스 데이터에 대한 현장 분석 및 품질 검사를 진행하여 데이터의 높은 가치를 보장하고, 데이터가 부족한 부분을 보강합니다.
오픈 소스 커뮤니티 기여: 데이터셋 구축 과정에서 오픈소스 커뮤니티는 OpenHermes-2.5, UltraInteract_sft, CodeBagel 등 다양한 소스의 데이터셋을 포함하여 방대한 양의 지침 데이터를 제공했습니다.
위험 평가 및 데이터 생성: 프로젝트 팀은 현재 위험성 평가와 데이터 생성을 진행하고 있으며, 6월 말까지 1,000만 개의 지침이 포함된 최종 버전을 출시할 예정입니다.
성능 개선: 현재 오픈소스 300만 명령어 데이터 세트는 Mistral, Openhermes 등 기존 데이터 세트를 능가하는 SFT(Supervised Fine-Tuning) 데이터 역량을 보여주었습니다.
미래 전망: 데이터 양이 수천만 개로 늘어나면, 명령어 미세조정 데이터 세트를 기반으로 학습된 대화 모델은 GPT-4 수준에 도달할 수 있을 것으로 기대됩니다.

InfinityInstruct 데이터 세트의 개발 및 출시는 대규모 언어 모델의 연구와 응용을 촉진하는 데 매우 중요합니다. 대규모 모델에 대한 풍부한 지침 데이터를 제공하고 모델이 지침을 이해하고 실행하는 능력을 향상시키는 데 도움이 됩니다. 동시에 오픈 소스라는 특성은 AI 커뮤니티 내에서 협업과 지식 공유를 촉진합니다.

InfinityInstruct-3M, 1천만 개의 명령어 미세 조정 데이터 세트 출시

InfinityInstruct의 특징은 다음과 같습니다.

AI로 AI 구축

Hyper Newsletters

Command Palette

InfinityInstruct-3M, 1천만 개의 명령어 미세 조정 데이터 세트 출시

InfinityInstruct의 특징은 다음과 같습니다.

AI로 AI 구축

Hyper Newsletters