Command Palette
Search for a command to run...
M2Lingual은 다양한 언어와 작업에 대한 명령어를 따르는 대규모 언어 모델(LLM)의 성능을 개선하는 것을 목표로 하는 다국어, 다라운드 명령어 미세 조정(IFT) 데이터 세트입니다. 이 데이터 세트는 ServiceNow와 시카고 일리노이 대학의 연구팀이 2024년에 만들었습니다.
M2Lingual 데이터 세트의 주요 특징은 다음과 같습니다.
- 다국어 지원: M2Lingual은 70개의 다양한 언어를 지원하여 학습 자원이 부족한 언어에 대한 더 많은 교육 데이터를 제공합니다.
- 멀티턴 대화: 데이터 세트에는 여러 라운드의 지시와 응답이 포함되어 있어 모델이 복잡한 대화 시나리오를 처리하는 능력이 향상됩니다.
- 업무 지향적: M2Lingual에는 요약, 질의응답, 일반 명령-응답 쌍 등 17개의 자연어 처리(NLP) 작업이 포함되어 있습니다.
- 대판: 이 데이터 세트에는 총 182,000개의 명령어 미세 조정 쌍이 포함되어 있어 풍부한 학습 샘플을 제공합니다.
- 합성 데이터 세트:M2Lingual은 특정 진화 분류법을 사용하여 생성된 완전히 합성된 데이터 세트로, 데이터의 다양성과 복잡성을 보장합니다.
- 성능 개선: M2Lingual을 사용하여 미세 조정된 LLM은 여러 평가 벤치마크에서 기존 다국어 IFT 데이터 세트보다 뛰어난 성능을 보였습니다.
M2Lingual의 도입은 다국어 및 다라운드 명령어 정렬 문제에 대한 새로운 솔루션을 제공하며, 다국어 환경에서 대규모 언어 모델의 실용성과 정확성을 개선하는 데 도움이 됩니다.
M2Lingual.torrent
시딩 1다운로드 중 0완료됨 198총 다운로드 횟수 254