HyperAI초신경

M2Lingual 다국어 다중 라운드 교육 미세 조정 데이터 세트

날짜

10달 전

크기

649.13 MB

기관

ServiceNow 연구
시카고 일리노이 대학교

발행 주소

huggingface.co

카테고리

M2Lingual은 다양한 언어와 작업에 대한 명령어를 따르는 대규모 언어 모델(LLM)의 성능을 개선하는 것을 목표로 하는 다국어, 다라운드 명령어 미세 조정(IFT) 데이터 세트입니다. 이 데이터 세트는 ServiceNow와 시카고 일리노이 대학의 연구팀이 2024년에 만들었습니다.

M2Lingual 데이터 세트의 주요 특징은 다음과 같습니다.

  1. 다국어 지원: M2Lingual은 70개의 다양한 언어를 지원하여 학습 자원이 부족한 언어에 대한 더 많은 교육 데이터를 제공합니다.
  2. 멀티턴 대화: 데이터 세트에는 여러 라운드의 지시와 응답이 포함되어 있어 모델이 복잡한 대화 시나리오를 처리하는 능력이 향상됩니다.
  3. 업무 지향적: M2Lingual에는 요약, 질의응답, 일반 명령-응답 쌍 등 17개의 자연어 처리(NLP) 작업이 포함되어 있습니다.
  4. 대판: 이 데이터 세트에는 총 182,000개의 명령어 미세 조정 쌍이 포함되어 있어 풍부한 학습 샘플을 제공합니다.
  5. 합성 데이터 세트:M2Lingual은 특정 진화 분류법을 사용하여 생성된 완전히 합성된 데이터 세트로, 데이터의 다양성과 복잡성을 보장합니다.
  6. 성능 개선: M2Lingual을 사용하여 미세 조정된 LLM은 여러 평가 벤치마크에서 기존 다국어 IFT 데이터 세트보다 뛰어난 성능을 보였습니다.

M2Lingual의 도입은 다국어 및 다라운드 명령어 정렬 문제에 대한 새로운 솔루션을 제공하며, 다국어 환경에서 대규모 언어 모델의 실용성과 정확성을 개선하는 데 도움이 됩니다.

M2Lingual.torrent
시딩 1다운로드 중 1완료됨 112총 다운로드 횟수 135
  • M2Lingual/
    • README.md
      2.11 KB
    • README.txt
      4.22 KB
      • data/
        • M2Lingual.zip
          649.13 MB