3 个月前

Jiacheng Chen Qianjia Cheng Fangchen Yu Haiyuan Wan Yuchen Zhang Shenghe Zheng Junchi Yao Qingyang Zhang Haonan He Yun Luo

摘要

近年来，大规模语言模型（LLMs）的发展已将研究前沿从解谜任务推进至科学级推理——即能够应对那些答案必须经受自然规律检验、而不仅符合评分标准的复杂问题。物理学是衡量这一转变的最严苛标准，因为它以根本性方式将符号系统与现实世界相联结，是现代大多数技术的基石。在本项工作中，我们通过开发具备卓越物理推理能力的大规模语言模型，成功推动了物理学研究的进展，尤其在解决国际奥林匹克物理竞赛（Olympiad-level）级别问题方面表现突出。我们提出了P1系列开源物理推理模型，该系列模型完全通过强化学习（Reinforcement Learning, RL）进行训练。其中，P1-235B-A22B是首个在2025年国际物理奥林匹克竞赛（IPhO 2025）中取得金牌水平表现的开源模型，并在2024至2025年度的13项国际及区域性物理竞赛中斩获12枚金牌。P1-30B-A3B同样在IPhO 2025中表现优异，超越了几乎所有其他开源模型，获得银牌成绩。进一步结合自主代理框架PhysicsMinions后，P1-235B-A22B+PhysicsMinions在IPhO 2025中综合排名位居第一，且在上述13项物理竞赛中取得了最高平均分。除物理学外，P1系列模型在数学推理与编程等其他推理任务中也展现出卓越性能，充分体现了该系列模型强大的泛化能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

Jiacheng Chen Qianjia Cheng Fangchen Yu Haiyuan Wan Yuchen Zhang Shenghe Zheng Junchi Yao Qingyang Zhang Haonan He Yun Luo

摘要

近年来，大规模语言模型（LLMs）的发展已将研究前沿从解谜任务推进至科学级推理——即能够应对那些答案必须经受自然规律检验、而不仅符合评分标准的复杂问题。物理学是衡量这一转变的最严苛标准，因为它以根本性方式将符号系统与现实世界相联结，是现代大多数技术的基石。在本项工作中，我们通过开发具备卓越物理推理能力的大规模语言模型，成功推动了物理学研究的进展，尤其在解决国际奥林匹克物理竞赛（Olympiad-level）级别问题方面表现突出。我们提出了P1系列开源物理推理模型，该系列模型完全通过强化学习（Reinforcement Learning, RL）进行训练。其中，P1-235B-A22B是首个在2025年国际物理奥林匹克竞赛（IPhO 2025）中取得金牌水平表现的开源模型，并在2024至2025年度的13项国际及区域性物理竞赛中斩获12枚金牌。P1-30B-A3B同样在IPhO 2025中表现优异，超越了几乎所有其他开源模型，获得银牌成绩。进一步结合自主代理框架PhysicsMinions后，P1-235B-A22B+PhysicsMinions在IPhO 2025中综合排名位居第一，且在上述13项物理竞赛中取得了最高平均分。除物理学外，P1系列模型在数学推理与编程等其他推理任务中也展现出卓越性能，充分体现了该系列模型强大的泛化能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

P1：基于强化学习的物理奥林匹克竞赛攻关 | 论文 | HyperAI超神经