Discord에서 논의하기

5달 전

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu

초록

본 논문에서는 18개 언어와 4단계(쉬움에서 어려움까지)의 난이도를 아우르는 다국어 수학적 추론 벤치마크인 PolyMath을 소개한다. 본 벤치마크는 난이도의 포괄성, 언어 다양성, 그리고 고품질 번역을 보장함으로써, 추론 기반 대규모 언어 모델(LLM) 시대에 있어 매우 구분력 있는 다국어 수학적 추론 벤치마크로 자리매김한다. 우리는 최신 LLM들을 종합적으로 평가한 결과, Qwen-3-235B-A22B-Thinking 및 Gemini-2.5-pro와 같은 고성능 모델조차도 최고 난이도에서 약 40%의 정확도를 기록하며 각각 54.6점과 52.2점의 벤치마크 점수를 얻는 것으로 나타났다. 언어적 관점에서 본 벤치마크는 현재 LLM의 다국어 추론 능력에 있어 몇 가지 핵심적인 도전 과제를 드러낸다. 첫째, 현재 LLM의 추론 성능은 언어에 따라 크게 차이를 보인다. 둘째, 추론 LLM에서 입력-출력 언어 일관성이 낮으며, 이는 성능과 관련이 있을 수 있다. 셋째, 현재 LLM의 사고 길이는 언어에 따라 상당히 차이가 난다. 또한 본 연구는 지시어 내 출력 언어를 제어하는 것이 추론 성능에 영향을 미칠 수 있음을 보여주며, 특히 자원이 제한된 일부 언어에 있어서는 이 방식이 다국어 능력 향상에 유망한 방향성을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

5달 전

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu

초록

본 논문에서는 18개 언어와 4단계(쉬움에서 어려움까지)의 난이도를 아우르는 다국어 수학적 추론 벤치마크인 PolyMath을 소개한다. 본 벤치마크는 난이도의 포괄성, 언어 다양성, 그리고 고품질 번역을 보장함으로써, 추론 기반 대규모 언어 모델(LLM) 시대에 있어 매우 구분력 있는 다국어 수학적 추론 벤치마크로 자리매김한다. 우리는 최신 LLM들을 종합적으로 평가한 결과, Qwen-3-235B-A22B-Thinking 및 Gemini-2.5-pro와 같은 고성능 모델조차도 최고 난이도에서 약 40%의 정확도를 기록하며 각각 54.6점과 52.2점의 벤치마크 점수를 얻는 것으로 나타났다. 언어적 관점에서 본 벤치마크는 현재 LLM의 다국어 추론 능력에 있어 몇 가지 핵심적인 도전 과제를 드러낸다. 첫째, 현재 LLM의 추론 성능은 언어에 따라 크게 차이를 보인다. 둘째, 추론 LLM에서 입력-출력 언어 일관성이 낮으며, 이는 성능과 관련이 있을 수 있다. 셋째, 현재 LLM의 사고 길이는 언어에 따라 상당히 차이가 난다. 또한 본 연구는 지시어 내 출력 언어를 제어하는 것이 추론 성능에 영향을 미칠 수 있음을 보여주며, 특히 자원이 제한된 일부 언어에 있어서는 이 방식이 다국어 능력 향상에 유망한 방향성을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

PolyMath: 다국어 맥락에서의 수학적 추론 평가 | 문서 | HyperAI초신경