Command Palette

Search for a command to run...

7 天前

P1:基于强化学习的物理奥林匹克竞赛攻关

P1:基于强化学习的物理奥林匹克竞赛攻关

摘要

近年来,大规模语言模型(LLMs)的发展已将研究前沿从解谜任务推进至科学级推理——即能够应对那些答案必须经受自然规律检验、而不仅符合评分标准的复杂问题。物理学是衡量这一转变的最严苛标准,因为它以根本性方式将符号系统与现实世界相联结,是现代大多数技术的基石。在本项工作中,我们通过开发具备卓越物理推理能力的大规模语言模型,成功推动了物理学研究的进展,尤其在解决国际奥林匹克物理竞赛(Olympiad-level)级别问题方面表现突出。我们提出了P1系列开源物理推理模型,该系列模型完全通过强化学习(Reinforcement Learning, RL)进行训练。其中,P1-235B-A22B是首个在2025年国际物理奥林匹克竞赛(IPhO 2025)中取得金牌水平表现的开源模型,并在2024至2025年度的13项国际及区域性物理竞赛中斩获12枚金牌。P1-30B-A3B同样在IPhO 2025中表现优异,超越了几乎所有其他开源模型,获得银牌成绩。进一步结合自主代理框架PhysicsMinions后,P1-235B-A22B+PhysicsMinions在IPhO 2025中综合排名位居第一,且在上述13项物理竞赛中取得了最高平均分。除物理学外,P1系列模型在数学推理与编程等其他推理任务中也展现出卓越性能,充分体现了该系列模型强大的泛化能力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
P1:基于强化学习的物理奥林匹克竞赛攻关 | 论文 | HyperAI超神经