Command Palette

Search for a command to run...

M2Lingual 다국어 다중 라운드 교육 미세 조정 데이터 세트

날짜

일 년 전

크기

649.13 MB

기관

ServiceNow 연구
시카고 일리노이 대학교

논문 URL

arxiv.org

M2Lingual은 다양한 언어와 작업에 대한 명령어를 따르는 대규모 언어 모델(LLM)의 성능을 개선하는 것을 목표로 하는 다국어, 다라운드 명령어 미세 조정(IFT) 데이터 세트입니다. 이 데이터 세트는 ServiceNow와 시카고 일리노이 대학의 연구팀이 2024년에 만들었습니다.

M2Lingual 데이터 세트의 주요 특징은 다음과 같습니다.

  1. 다국어 지원: M2Lingual은 70개의 다양한 언어를 지원하여 학습 자원이 부족한 언어에 대한 더 많은 교육 데이터를 제공합니다.
  2. 멀티턴 대화: 데이터 세트에는 여러 라운드의 지시와 응답이 포함되어 있어 모델이 복잡한 대화 시나리오를 처리하는 능력이 향상됩니다.
  3. 업무 지향적: M2Lingual에는 요약, 질의응답, 일반 명령-응답 쌍 등 17개의 자연어 처리(NLP) 작업이 포함되어 있습니다.
  4. 대판: 이 데이터 세트에는 총 182,000개의 명령어 미세 조정 쌍이 포함되어 있어 풍부한 학습 샘플을 제공합니다.
  5. 합성 데이터 세트:M2Lingual은 특정 진화 분류법을 사용하여 생성된 완전히 합성된 데이터 세트로, 데이터의 다양성과 복잡성을 보장합니다.
  6. 성능 개선: M2Lingual을 사용하여 미세 조정된 LLM은 여러 평가 벤치마크에서 기존 다국어 IFT 데이터 세트보다 뛰어난 성능을 보였습니다.

M2Lingual의 도입은 다국어 및 다라운드 명령어 정렬 문제에 대한 새로운 솔루션을 제공하며, 다국어 환경에서 대규모 언어 모델의 실용성과 정확성을 개선하는 데 도움이 됩니다.

M2Lingual.torrent
시딩 1다운로드 중 0완료됨 198총 다운로드 횟수 254
  • M2Lingual/
    • README.md
      2.11 KB
    • README.txt
      4.22 KB
      • data/
        • M2Lingual.zip
          649.13 MB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp