15일 전
GSM-Plus: LLM가 수학 문제 해결자로서의 견고성을 평가하기 위한 종합적 벤치마크
Qintong Li, Leyang Cui, Xueliang Zhao, Lingpeng Kong, Wei Bi

초록
대규모 언어 모델(Large Language Models, LLMs)은 다양한 수학적 추론 벤치마크에서 놀라운 성능을 달성하고 있다. 그러나 이러한 모델이 진정으로 수학 지식을 이해하고 적용하는지, 아니면 단지 수학적 추론을 위한 단순한 패턴 인식에 의존하는지에 대한 논의가 점점 증가하고 있다. 이러한 논의를 뒷받침하는 핵심적이고 흔히 나타나는 증거 중 하나는, 수학 문제를 약간만 변경하면 LLM이 잘못된 행동을 보인다는 점이다. 이에 따라 우리는 다양한 문제 변형을 테스트함으로써 LLM의 수학 추론 능력이 얼마나 견고한지 평가하고자 한다. 우리는 GSM8K를 다양한 수학적 변형(퍼터베이션)으로 확장한 대안적 초등학교 수학(GSM-Plus) 데이터셋을 제안한다. 25개의 LLM과 4가지 프롬프팅 기법을 대상으로 수행한 실험 결과, LLM은 수학 추론 능력에서 서로 다른 수준을 보였지만, 그 성능은 여전히 견고하지 못함을 확인했다. 특히 GSM8K에서 이미 해결된 문제들에 대해서도, 새로운 문장이 추가되거나 질문의 목표가 변경되는 경우 LLM이 오류를 범할 수 있음을 발견했다. 또한 기존 프롬프팅 기법을 조합함으로써 더 견고한 성능을 달성할 수 있는지 탐구하였으며, 추론 목표와 계산 결과를 기반으로 각 중간 사고를 생성하고 검증하는 반복적 방법을 시도하였다.