AlphaOne:测试时的慢速和快速推理模型
Junyu Zhang, Runpei Dong, Han Wang, Xuying Ning, Haoran Geng, Peihao Li, Xialin He, Yutong Bai, Jitendra Malik, Saurabh Gupta, Huan Zhang
发布日期: 6/2/2025

摘要
本文介绍了AlphaOne(alpha1),这是一种在测试时调节大型推理模型(LRMs)推理进程的通用框架。alpha1首先引入了alpha时刻的概念,该概念通过一个通用参数alpha表示缩放的思考阶段。在此缩放的预-alpha时刻阶段内,它通过将推理转换标记的插入建模为伯努利随机过程来动态调度缓慢思考的过渡。在alpha时刻之后,alpha1通过确定性地终止缓慢思考并使用结束思考标记来促进快速推理和高效答案生成。这种方法通过实现灵活且密集的从慢到快推理调节,统一并推广了现有的单调缩放方法。广泛的实证研究显示,在数学、编程和科学领域的多个具有挑战性的基准测试中,alpha1表现出卓越的推理能力和效率。项目页面:https://alphaone-project.github.io/