HyperAI超神经

PRefLexOR:基于偏好的递归语言建模用于推理与智能体思维的探索性优化

Markus J. Buehler
发布日期: 6/13/2025
PRefLexOR:基于偏好的递归语言建模用于推理与智能体思维的探索性优化
摘要

我们提出了 PRefLexOR(基于偏好的递归语言建模用于推理探索优化),这是一个将偏好优化与强化学习(RL)概念相结合的框架,用于自我改进的科学推理。PRefLexOR 采用递归方法,在训练和推理过程中优化中间步骤,然后生成最终输出。它通过一种原位数据集生成算法优化偏好和非偏好响应之间的对数几率。动态知识图谱通过检索增强的数据为推理提供上下文。偏好优化通过拒绝采样增强性能,掩盖推理步骤以专注于发现。递归优化通过反馈循环指导,优化推理过程。这一过程类似于生物适应过程,能够实现实时学习。我们发现,即使是小型模型(30亿参数)也能通过自我学习实现更深层次的推理,有效解决开放域问题。我们的方法可以集成到现有的大型语言模型(LLMs)中,并在生物材料科学领域取得了成功,通过多智能体自我改进提升了推理深度和跨领域适应性,提供了灵活性并能够集成到更大的智能体系统中。