2ヶ月前

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu

概要

本稿では、18言語および4段階（易→難）の難易度をカバーする多言語数学推論ベンチマーク「PolyMath」を紹介する。本ベンチマークは、難易度の包括性、言語の多様性、高品質な翻訳を確保しており、推論用大規模言語モデル（LLM）の時代にふさわしい、高い識別力を持つ多言語数学推論ベンチマークとしての価値を持つ。最先端のLLMに対して包括的な評価を実施した結果、Qwen-3-235B-A22B-ThinkingやGemini-2.5-proですら、それぞれ54.6点および52.2点のスコアにとどまり、最も難易度の高いレベルでは約40％の正答率にとどまっていることが明らかになった。言語視点から見ると、本ベンチマークは現在のLLMにおける多言語推論におけるいくつかの重要な課題を明らかにした。第一に、現在のLLMにおいて、推論性能は言語によって著しく変動する。第二に、推論LLMにおける入力言語と出力言語の整合性は低く、これは推論性能と関連している可能性がある。第三に、現在のLLMにおいて、言語ごとに推論の思考過程の長さに顕著な差が見られる。さらに、指示文における出力言語の制御が、特に低リソース言語において推論性能に影響を与える可能性があることを示した。これは、LLMの多言語能力を向上させるための有望な方向性を示唆している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

2ヶ月前

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu

概要

本稿では、18言語および4段階（易→難）の難易度をカバーする多言語数学推論ベンチマーク「PolyMath」を紹介する。本ベンチマークは、難易度の包括性、言語の多様性、高品質な翻訳を確保しており、推論用大規模言語モデル（LLM）の時代にふさわしい、高い識別力を持つ多言語数学推論ベンチマークとしての価値を持つ。最先端のLLMに対して包括的な評価を実施した結果、Qwen-3-235B-A22B-ThinkingやGemini-2.5-proですら、それぞれ54.6点および52.2点のスコアにとどまり、最も難易度の高いレベルでは約40％の正答率にとどまっていることが明らかになった。言語視点から見ると、本ベンチマークは現在のLLMにおける多言語推論におけるいくつかの重要な課題を明らかにした。第一に、現在のLLMにおいて、推論性能は言語によって著しく変動する。第二に、推論LLMにおける入力言語と出力言語の整合性は低く、これは推論性能と関連している可能性がある。第三に、現在のLLMにおいて、言語ごとに推論の思考過程の長さに顕著な差が見られる。さらに、指示文における出力言語の制御が、特に低リソース言語において推論性能に影響を与える可能性があることを示した。これは、LLMの多言語能力を向上させるための有望な方向性を示唆している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています