Command Palette

Search for a command to run...

7日前

P1:強化学習を用いた物理学オリンピックの習得

P1:強化学習を用いた物理学オリンピックの習得

要約

最近の大規模言語モデル(LLM)の進展により、問題解決から科学的水準の推論へとその限界が移行しつつある。これは、答えが単に評価基準に合うだけでなく、自然の法則に耐えうる真の理解を要する課題に直面する際に求められる推論力である。物理学はこの変化の最も鋭い試金石であり、記号と現実を根本的に結びつける分野として、現代技術の多くを支える基盤となっている。本研究では、特に国際物理学オリンピック(IPhO)レベルの物理問題に優れた対応能力を発揮する大規模言語モデルの開発により、物理学研究の前進を実現した。我々は、強化学習(RL)のみを用いて完全に訓練されたオープンソースの物理推論モデル群「P1」を提案する。その中でも、P1-235B-A22Bは、最新の国際物理学オリンピック(IPhO 2025)で金メダルを獲得するという、世界初のオープンソースモデルとしての実績を達成し、2024年から2025年にかけて実施された13の国際・地域レベルの物理コンペティションのうち12で金メダルを獲得した。また、P1-30B-A3Bも、IPhO 2025においてほぼすべての他のオープンソースモデルを上回り、銀メダルを獲得した。さらに、自律的フレームワーク「PhysicsMinions」を統合したP1-235B-A22B+PhysicsMinionsは、IPhO 2025で総合1位を達成し、13の物理コンペティションにおける平均得点でも最高を記録した。物理学以外の推論タスク、たとえば数学やプログラミングにおいても、P1モデルは優れた性能を発揮しており、P1シリーズの高い汎化能力が示された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
P1:強化学習を用いた物理学オリンピックの習得 | 論文 | HyperAI超神経