Command Palette
Search for a command to run...

摘要
近年来,大规模语言模型(LLMs)的发展已将研究前沿从解谜任务推进至科学级推理——即能够应对那些答案必须经受自然规律检验、而不仅符合评分标准的复杂问题。物理学是衡量这一转变的最严苛标准,因为它以根本性方式将符号系统与现实世界相联结,是现代大多数技术的基石。在本项工作中,我们通过开发具备卓越物理推理能力的大规模语言模型,成功推动了物理学研究的进展,尤其在解决国际奥林匹克物理竞赛(Olympiad-level)级别问题方面表现突出。我们提出了P1系列开源物理推理模型,该系列模型完全通过强化学习(Reinforcement Learning, RL)进行训练。其中,P1-235B-A22B是首个在2025年国际物理奥林匹克竞赛(IPhO 2025)中取得金牌水平表现的开源模型,并在2024至2025年度的13项国际及区域性物理竞赛中斩获12枚金牌。P1-30B-A3B同样在IPhO 2025中表现优异,超越了几乎所有其他开源模型,获得银牌成绩。进一步结合自主代理框架PhysicsMinions后,P1-235B-A22B+PhysicsMinions在IPhO 2025中综合排名位居第一,且在上述13项物理竞赛中取得了最高平均分。除物理学外,P1系列模型在数学推理与编程等其他推理任务中也展现出卓越性能,充分体现了该系列模型强大的泛化能力。