13일 전

OpenMathInstruct-1: 180만 개의 수학 지시 조정 데이터셋

Shubham Toshniwal, Ivan Moshkov, Sean Narenthiran, Daria Gitman, Fei Jia, Igor Gitman
OpenMathInstruct-1: 180만 개의 수학 지시 조정 데이터셋
초록

최근 연구에서는 대규모 언어 모델(LLM) 훈련을 위한 합성 데이터셋이 갖는 엄청난 잠재력을 입증하고 있으며, 특히 특정 능력을 습득하는 데에 매우 효과적임이 확인되었다. 현재까지 공개된 대규모 수학 지시 조정(instruction tuning) 데이터셋인 MetaMathQA(Yu 등, 2024) 및 MAmmoTH(Yue 등, 2024)는 상용 제한 라이선스를 가진 폐쇄형 LLM의 출력을 기반으로 구축되었다. 이러한 데이터 생성 파이프라인에서 오픈소스 LLM의 사용을 제한하는 주요 요인은, GPT-4와 같은 최고 수준의 폐쇄형 LLM과 최고의 오픈소스 LLM 사이에 존재하는 광범위한 수학적 능력 격차였다. 최근 오픈소스 LLM의 발전과 본 연구에서 제안하는 새로운 프롬프팅 기법, 그리고 일부 강제적 확장 스케일링 기법을 바탕으로, 우리는 180만 개의 문제-해답 쌍을 포함하는 수학 지시 조정 데이터셋인 OpenMathInstruct-1을 구축하였다. 이 데이터셋은 최근 공개된 자유로운 라이선스를 가진 Mixtral 모델을 활용하여, 대표적인 수학 추론 벤치마크인 GSM8K와 MATH에 대한 코드 인터프리터 기반 솔루션을 합성함으로써 생성되었다. 본 연구에서 개발한 최적 모델인 OpenMath-CodeLlama-70B는 OpenMathInstruct-1의 일부 하위 데이터셋을 기반으로 훈련되었으며, GSM8K에서 84.6%, MATH에서 50.7%의 성능을 기록하여 최고 수준의 gpt-디스틸리드 모델들과 경쟁 가능한 수준을 보였다. 본 연구에서는 코드, 모델, 그리고 OpenMathInstruct-1 데이터셋을 상용적으로 활용이 가능한 라이선스 하에 공개한다.