Command Palette
Search for a command to run...
PolyMath: 다국어 맥락에서의 수학적 추론 평가
PolyMath: 다국어 맥락에서의 수학적 추론 평가
초록
본 논문에서는 18개 언어와 4단계(쉬움에서 어려움까지)의 난이도를 아우르는 다국어 수학적 추론 벤치마크인 PolyMath을 소개한다. 본 벤치마크는 난이도의 포괄성, 언어 다양성, 그리고 고품질 번역을 보장함으로써, 추론 기반 대규모 언어 모델(LLM) 시대에 있어 매우 구분력 있는 다국어 수학적 추론 벤치마크로 자리매김한다. 우리는 최신 LLM들을 종합적으로 평가한 결과, Qwen-3-235B-A22B-Thinking 및 Gemini-2.5-pro와 같은 고성능 모델조차도 최고 난이도에서 약 40%의 정확도를 기록하며 각각 54.6점과 52.2점의 벤치마크 점수를 얻는 것으로 나타났다. 언어적 관점에서 본 벤치마크는 현재 LLM의 다국어 추론 능력에 있어 몇 가지 핵심적인 도전 과제를 드러낸다. 첫째, 현재 LLM의 추론 성능은 언어에 따라 크게 차이를 보인다. 둘째, 추론 LLM에서 입력-출력 언어 일관성이 낮으며, 이는 성능과 관련이 있을 수 있다. 셋째, 현재 LLM의 사고 길이는 언어에 따라 상당히 차이가 난다. 또한 본 연구는 지시어 내 출력 언어를 제어하는 것이 추론 성능에 영향을 미칠 수 있음을 보여주며, 특히 자원이 제한된 일부 언어에 있어서는 이 방식이 다국어 능력 향상에 유망한 방향성을 제시한다.