17일 전

Orca-Math: 초등학교 수학에서 SLM의 잠재력 열기

Arindam Mitra, Hamed Khanpour, Corby Rosset, Ahmed Awadallah
Orca-Math: 초등학교 수학에서 SLM의 잠재력 열기
초록

수학적 단어 문제 해결은 소형 언어 모델(SLM)에게 오랫동안 복잡한 과제로 여겨져 왔다. 최근 연구에서는 GSM8K 벤치마크에서 80% 이상의 정확도를 달성하기 위해 필요한 최소 모델 크기가 340억 파라미터라고 가정했다. 이 성능을 더 작은 모델로 달성하기 위해 연구자들은 종종 SLM을 파이썬 코드 생성하도록 훈련하거나, 계산 오류를 피하기 위해 외부 도구를 활용한다. 또한, 최대 100회의 모델 실행 결과를 결합하여 더 정확한 결과를 도출하는 앙상블 기법을 사용한다. 결과 선택은 공통의 의견, 다수결 또는 SLM과 함께 사용되는 별도의 검증 모델( verifier model)을 통해 이루어진다. 앙상블 기법은 정확도를 크게 향상시키지만, 모델에 대한 다중 호출로 인해 비용이 크게 증가한다(예: Phi-GSM은 상위 48개 결과를 활용해 정확도를 68.2%에서 81.5%로 끌어올림).본 연구에서는 Mistral-7B 기반의 70억 파라미터 SLM인 Orca-Math를 제안한다. 이 모델은 다중 호출, 검증 모델, 코드 실행 또는 기타 외부 도구 없이도 GSM8K에서 86.81%의 정확도를 달성한다. 우리의 접근 방식은 다음과 같은 핵심 요소를 포함한다: (1) 여러 에이전트가 협력하여 생성한 20만 개의 고품질 합성 수학 문제 데이터셋, (2) 문제 해결 연습, 솔루션에 대한 피드백 수신, 그리고 SLM의 솔루션과 피드백을 포함한 선호도 쌍( preference pairs)을 기반으로 학습하는 반복적 학습 기법. 감독 미세조정(Supervised Fine-Tuning)만으로도 Orca-Math는 GSM8K의 pass@1 지표에서 81.50%의 성능을 달성한다. 반복적 선호도 학습을 적용한 경우, Orca-Math는 pass@1에서 86.81%의 성능을 기록한다. Orca-Math는 LLAMA-2-70B, WizardMath-70B, Gemini-Pro, ChatGPT-3.5와 같은 훨씬 큰 모델보다 뛰어난 성능을 보이며, 수백만 개의 문제를 사용하는 다른 소형 모델들보다도 훨씬 더 적은 데이터량(수십만 개)으로도 뛰어난 성능을 달성한다.

Orca-Math: 초등학교 수학에서 SLM의 잠재력 열기 | 최신 연구 논문 | HyperAI초신경