
要約
本稿では、18言語および4段階(易→難)の難易度をカバーする多言語数学推論ベンチマーク「PolyMath」を紹介する。本ベンチマークは、難易度の包括性、言語の多様性、高品質な翻訳を確保しており、推論用大規模言語モデル(LLM)の時代にふさわしい、高い識別力を持つ多言語数学推論ベンチマークとしての価値を持つ。最先端のLLMに対して包括的な評価を実施した結果、Qwen-3-235B-A22B-ThinkingやGemini-2.5-proですら、それぞれ54.6点および52.2点のスコアにとどまり、最も難易度の高いレベルでは約40%の正答率にとどまっていることが明らかになった。言語視点から見ると、本ベンチマークは現在のLLMにおける多言語推論におけるいくつかの重要な課題を明らかにした。第一に、現在のLLMにおいて、推論性能は言語によって著しく変動する。第二に、推論LLMにおける入力言語と出力言語の整合性は低く、これは推論性能と関連している可能性がある。第三に、現在のLLMにおいて、言語ごとに推論の思考過程の長さに顕著な差が見られる。さらに、指示文における出力言語の制御が、特に低リソース言語において推論性能に影響を与える可能性があることを示した。これは、LLMの多言語能力を向上させるための有望な方向性を示唆している。