HyperAIHyperAI

Command Palette

Search for a command to run...

Console
3日前

PolyMath:多言語文脈における数学的推論の評価

PolyMath:多言語文脈における数学的推論の評価

要約

本稿では、18言語および4段階(易→難)の難易度をカバーする多言語数学推論ベンチマーク「PolyMath」を紹介する。本ベンチマークは、難易度の包括性、言語の多様性、高品質な翻訳を確保しており、推論用大規模言語モデル(LLM)の時代にふさわしい、高い識別力を持つ多言語数学推論ベンチマークとしての価値を持つ。最先端のLLMに対して包括的な評価を実施した結果、Qwen-3-235B-A22B-ThinkingやGemini-2.5-proですら、それぞれ54.6点および52.2点のスコアにとどまり、最も難易度の高いレベルでは約40%の正答率にとどまっていることが明らかになった。言語視点から見ると、本ベンチマークは現在のLLMにおける多言語推論におけるいくつかの重要な課題を明らかにした。第一に、現在のLLMにおいて、推論性能は言語によって著しく変動する。第二に、推論LLMにおける入力言語と出力言語の整合性は低く、これは推論性能と関連している可能性がある。第三に、現在のLLMにおいて、言語ごとに推論の思考過程の長さに顕著な差が見られる。さらに、指示文における出力言語の制御が、特に低リソース言語において推論性能に影響を与える可能性があることを示した。これは、LLMの多言語能力を向上させるための有望な方向性を示唆している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
PolyMath:多言語文脈における数学的推論の評価 | 論文 | HyperAI超神経