MohammadHossein Bateni Vincent Cohen-Addad Yuzhou Gu Silvio Lattanzi Simon Meierhans Christopher Mohri

摘要
大型语言模型(LLMs)在解决复杂推理任务方面已被证明具有极高的有效性。令人惊讶的是,通过对其先前生成的解决方案进行迭代优化,往往能够进一步提升其性能。在此背景下,一种用于生成并整合一组解决方案的推理规划,可被视为利用概率性预言机(probabilistic oracle)进行推理的算法。我们提出了一种理论框架,用于分析此类推理算法。该框架形式化了当前广泛采用的迭代优化与答案聚合技术的基本原理,为设计新一代更强大的推理方法奠定了基础。与依赖模型架构细节来理解模型的方法不同,我们的模型建立在实验证据之上,因而提供了一个具有普遍适用性的视角,有望拓展至当前及未来多种推理预言机(reasoning oracles)的场景。