머글매스: 쿼리 및 응답 증강이 수학 추론에 미치는 영향 평가

수학 추론에서 대규모 언어 모델(Large Language Models, LLMs)의 경우, 질의 진화와 다양한 추론 경로를 통한 피니튜닝 데이터 증강 기법이 실험적으로 효과적임이 입증되었으며, 이는 오픈소스 LLM과 최첨단 전용 LLM 간의 성능 격차를 크게 좁히는 데 기여한다. 본 논문에서는 수학 추론에서의 이러한 데이터 증강 기법에 대해 조사하고, 다음과 같은 세 가지 질문에 답하고자 한다: (1) 어떤 데이터 증강 전략이 더 효과적인가? (2) 증강된 데이터의 양과 모델 성능 사이의 스케일링 관계는 어떠한가? (3) 데이터 증강은 도메인 외 수학 추론 과제에 대한 일반화를 유도할 수 있는가? 이를 위해, GSM8K와 MATH 데이터셋의 질의를 복잡화하고 다양화하며, 여러 추론 경로를 샘플링함으로써 새로운 두 개의 데이터셋인 AugGSM8K와 AugMATH를 생성하였다. 이 데이터셋을 기반으로 LLaMA 모델을 피니튜닝하여 MuggleMath라는 일련의 LLM을 개발하였으며, MuggleMath는 GSM8K 및 MATH에서 새로운 최고 성능(SOTA)을 달성하였다. GSM8K와 MATH에서 MuggleMath의 성능과 증강 데이터 양 사이에는 각각 로그-선형 관계와 단절적 로그-선형 관계가 존재함을 발견하였다. 또한 AugGSM8K에서 MATH로, AugMATH에서 GSM8K로의 도메인 외 수학 추론 일반화 능력이 약한 것으로 나타났으며, 이는 더 넓은 주제 범위를 커버하는 질의 증강이 일반화에 더 유리함을 시사한다. 본 연구의 코드와 증강된 데이터는 https://github.com/OFA-Sys/gsm8k-ScRel 에 공개한다.