MathCoder: LLM 내에서의 원활한 코드 통합을 통한 수학적 추론 능력 향상

최근 공개된 GPT-4 코드 인터프리터는 자연어를 통해 원활하게 추론하고, 코드를 생성하며 실행하고, 실행 결과를 바탕으로 추가 추론을 수행할 수 있는 능력 덕분에 어려운 수학 문제 해결에서 뛰어난 성능을 보여주었다. 본 논문에서는 오픈소스 언어 모델을 미세조정하는 방법을 제안하여, 이러한 모델이 코드를 활용해 수학적 모델링과 방정식 도출을 수행할 수 있도록 하고, 결과적으로 수학적 추론 능력을 향상시키는 것을 목표로 한다. 우리는 수학 문제와 그에 대한 코드 기반 해결책을 포함하는 새로운 고품질 데이터셋을 생성하는 방법을 제안하며, 이를 MathCodeInstruct라 명명한다. 각 해결책은 자연어, 코드, 실행 결과가 번갈아 가며 포함되어 있다. 또한 맞춤형 지도 미세조정 및 추론 방법을 도입하여, 도전적인 수학 문제를 해결하기 위한 코드 기반 해결책을 생성할 수 있는 MathCoder 모델 가족을 개발하였다. 놀랍게도 MathCoder 모델은 MATH(45.2%) 및 GSM8K(83.9%) 데이터셋에서 오픈소스 LLM 중 최고 수준의 성능을 기록하며, 다른 오픈소스 모델들보다 크게 앞서 나갔다. 특히 MathCoder 모델은 GSM8K 및 MATH 데이터셋에서 ChatGPT-3.5와 PaLM-2를 상회할 뿐만 아니라, 경쟁 수준의 MATH 데이터셋에서는 GPT-4까지도 초월하는 성능을 보였다. 본 연구에서 개발한 데이터셋과 모델은 https://github.com/mathllm/MathCoder 에서 공개될 예정이다.