11일 전
LLMs의 수학 추론에서 데이터 능력 경계에 대한 실증 연구
Zui Chen, Yezeng Chen, Jiaqi Han, Zhijie Huang, Ji Qi, Yi Zhou

초록
대규모 언어 모델(Large Language Models, LLMs)은 수학 추론 과제에서 새로운 능력을 보여주고 있으며, 이에 따라 개방형 LLM의 능력을 감독적 미세조정(Supervised Fine-Tuning, SFT)을 통해 향상시키는 데 대한 관심이 증가하고 있다. 본 논문에서는 감독 데이터에 대한 일반적인 데이터 전략을 탐구하여 수학 추론 능력을 최적화하고 확장하는 데 기여하고자 한다. 먼저, 추론 경로 증강의 능력 한계를 규명하기 위해 이러한 경로들의 최소 최적 집합을 식별한다. 이후, 동일한 유형의 데이터에 대한 최소 최적 집합의 혼합(Mix of Minimal Optimal Sets, MMOS)을 통해 모델의 다양한 능력이 누적적으로 향상됨을 검증하며, 본 연구에서 제안하는 모델 MMOS는 상대적으로 낮은 구축 비용으로도 다양한 기초 모델에서 최고 성능(SOTA)을 달성함을 보인다. 또한, GSM-HARD가 실제로 어려운 문제는 아니며, 현재의 LLMs는 더 이상 수치적 강건성(Numerical Robustness)이 부족하지 않다는 점을 지적한다. 더불어, 강건성 테스트 및 교육적 응용을 위한 자동 문제 생성기(Auto Problem Generator)도 제안한다. 본 연구의 코드와 데이터는 공개적으로 제공되며, 다음 링크에서 확인할 수 있다: https://github.com/cyzhh/MMOS.