HyperAI초신경

OpenMathInstruct-2 수학 명령어 튜닝 데이터 세트

OpenMathInstruct-2는 NVIDIA가 2024년에 공개한 대규모 오픈소스 수학 명령어 데이터 세트로, 수학 분야에서 인공지능의 발전을 가속화하는 것을 목표로 합니다. 관련 논문 결과는 "OpenMathInstruct-2: 방대한 오픈 소스 명령어 데이터를 활용한 수학 AI 가속화". 이 데이터셋은 1,400만 개의 질문-답변 쌍(고유 질문 약 60만 개)을 포함하고 있어, 이전에 동종 최대 규모의 데이터셋보다 거의 8배 더 큽니다. OpenMathInstruct-2를 사용하여 Llama-3.1-8B-Base 모델을 미세 조정한 결과, MATH 데이터셋 성능이 Llama3.1-8B-Instruct 대비 15.9%(51.9%에서 67.8%로 향상) 향상되었습니다.

OpenMathInstruct-2 데이터 세트에는 다음 필드가 포함되어 있습니다.

  • 문제: GSM8K 또는 MATH 훈련 세트의 원래 문제이거나 이러한 훈련 세트에서 확장된 문제입니다.
  • 생성된 솔루션: 합성적으로 생성된 솔루션.
  • 예상 답변: 훈련 세트의 질문에 대해서는 데이터 세트에 제공된 실제 참조 답변입니다. 강화된 질문의 경우 다수결로 얻은 답변입니다.
  • 문제_원인: 문제가 GSM8K 또는 MATH에서 직접 발생했거나 두 데이터 세트에서 파생된 향상된 버전임을 나타냅니다.
데이터 세트 구조의 예

OpenMathInstruct-2.torrent
시딩 2다운로드 중 1완료됨 62총 다운로드 횟수 43
  • OpenMathInstruct-2/
    • README.md
      1.85 KB
    • README.txt
      3.7 KB
      • data/
        • OpenMathInstruct-2.zip
          10.23 GB