11일 전

WizardMath: 강화된 Evol-Instruct를 통한 대규모 언어 모델의 수학적 추론 능력 강화

Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Yansong Tang, Dongmei Zhang
WizardMath: 강화된 Evol-Instruct를 통한 대규모 언어 모델의 수학적 추론 능력 강화
초록

대규모 언어 모델(Large Language Models, LLMs), 예를 들어 GPT-4는 자연어 처리(Natural Language Processing, NLP) 과제, 특히 도전적인 수학 추론 문제에서 뛰어난 성능을 보여주고 있다. 그러나 기존의 대부분의 오픈소스 모델들은 대규모 인터넷 데이터에만 사전 훈련되어 있으며, 수학 관련 최적화는 이루어지지 않았다. 본 논문에서는 수학 분야에 우리에서 제안한 '진화 지시 피드백을 통한 강화 학습(RL from Evol-Instruct Feedback, RLEIF)' 기법을 적용함으로써, 외부 파이썬 도구를 사용하지 않고도 LLM의 수학적 사고 과정(Chain-of-Thought, CoT) 추론 능력을 향상시키는 WizardMath를 제안한다. GSM8K와 MATH라는 두 가지 수학 추론 벤치마크에서 실시한 광범위한 실험을 통해 본 모델의 뛰어난 능력을 입증하였다. 특히 WizardMath-Mistral 7B는 더 높은 데이터 효율성을 기반으로 하여 최상위 수준의 오픈소스 LLM들을 상당한 격차로 앞서며 우수한 성능을 보였다. 또한 WizardMath 70B는 GPT-3.5-Turbo, Claude 2, Gemini Pro, 그리고 GPT-4의 초기 버전을 모두 초월하는 성능을 기록하였다. 더불어, 초기 탐색 결과를 통해 지시어의 진화와 과정 감독이 뛰어난 수학 성능을 달성하는 데 핵심적인 역할을 함을 시사한다. 자세한 내용은 https://github.com/nlpxucan/WizardLM 를 참조하기 바란다.

WizardMath: 강화된 Evol-Instruct를 통한 대규모 언어 모델의 수학적 추론 능력 강화 | 최신 연구 논문 | HyperAI초신경