Command Palette

Search for a command to run...

2ヶ月前

CMPhysBench:凝縮系物理学における大規模言語モデルの評価のためのベンチマーク

CMPhysBench:凝縮系物理学における大規模言語モデルの評価のためのベンチマーク

要約

我々は、凝縮系物理学における大規模言語モデル(LLM)の実力評価を目的として、新たなベンチマーク「CMPhysBench」を提案する。CMPhysBenchは、磁性、超伝導、強相関系など、凝縮系物理学の代表的な分野および基盤的理論枠組みを網羅する、520問を超える大学院レベルの厳密に選別された問題から構成されている。問題の解決プロセスにおける深い理解を確保するため、本ベンチマークでは計算問題に限定し、LLMが自立的に包括的な解答を生成することを要請している。同時に、式の木構造表現を活用して、スケーラブルな式編集距離(SEEDスコア)を導入した。SEEDスコアは、二値ではなく細粒度の部分得点を提供し、予測結果と正解との類似度をより正確に評価できる。実験結果から、現在最も性能の高いモデルであるGrok-4ですら、CMPhysBenchにおいて平均SEEDスコア36、正解率28%にとどまっていることが明らかとなり、従来の物理学と比較して、この実用的かつ最先端の分野において顕著な能力ギャップが存在することが示された。本研究のコードおよびデータセットは、https://github.com/CMPhysBench/CMPhysBench にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CMPhysBench:凝縮系物理学における大規模言語モデルの評価のためのベンチマーク | 論文 | HyperAI超神経