2달 전

OpenMathInstruct-2: 대규모 오픈 소스 지시 데이터를 활용한 수학 AI 가속화

Shubham Toshniwal; Wei Du; Ivan Moshkov; Branislav Kisacanin; Alexan Ayrapetyan; Igor Gitman
OpenMathInstruct-2: 대규모 오픈 소스 지시 데이터를 활용한 수학 AI 가속화
초록

수학적 추론은 여전히 대형 언어 모델(LLM) 개발에서 중요한 도전 과제로 남아 있으며, 많은 관심을 받고 있습니다. 그러나 대부분의 최신 수학적 추론 연구는 훈련 데이터에 대한 접근이 부족하여 \emph{폐쇄 소스(closed-source)}가 되었습니다. 이는 연구자들이 데이터를 합성하고 활용하는 방법에 따른 다양한 선택의 영향을 이해하는 것을 제한합니다. 고품질의 미세 조정(SFT) 데이터셋을 만드는 것을 목표로, 최근 발표된 \texttt{Llama3.1} 모델군을 사용하여 데이터 합성에 대한 철저한 감소 실험(ablation experiments)을 수행했습니다. 실험 결과 다음과 같은 점들을 확인할 수 있었습니다: (a) 해결 방식의 형식이 중요하며, 지나치게 긴 설명은 SFT 성능에 해롭다는 점, (b) 강력한 교사 모델이 생성한 데이터가 동일한 크기의 약한 학생 모델이 생성한 데이터보다 우수하다는 점, (c) SFT는 저품질의 해결 방식에도 견디며, 불확실한 데이터 필터링도 가능하다는 점, (d) 질문 다양성이 데이터 스케일링 이익을 얻기 위한 중요한 요소라는 점입니다.이러한 통찰력을 바탕으로, 우리는 1400만 개의 질문-해결 쌍(약 60만 개의 고유 질문 포함)으로 구성된 OpenMathInstruct-2 데이터셋을 만들었습니다. 이는 이전 가장 큰 오픈 소스 수학적 추론 데이터셋보다 거의 8배 더 큽니다. OpenMathInstruct-2를 사용하여 \texttt{Llama-3.1-8B-Base}를 미세 조정하면 MATH에서 \texttt{Llama3.1-8B-Instruct}보다 절대적으로 15.9\% (51.9\% → 67.8\%) 높은 성능을 보입니다. 마지막으로, 오픈 소스 노력 가속화를 위해 상업적으로 허용되는 라이선스 하에 코드, 미세 조정된 모델 및 OpenMathInstruct-2 데이터셋을 공개합니다.