Command Palette

Search for a command to run...

5 个月前

PRefLexOR:基于偏好的递归语言建模用于推理与智能体思维的探索性优化

Markus J. Buehler

PRefLexOR:基于偏好的递归语言建模用于推理与智能体思维的探索性优化

摘要

我们提出了 PRefLexOR(基于偏好的递归语言建模用于推理探索优化),这是一个将偏好优化与强化学习(RL)概念相结合的框架,用于自我改进的科学推理。PRefLexOR 采用递归方法,在训练和推理过程中优化中间步骤,然后生成最终输出。它通过一种原位数据集生成算法优化偏好和非偏好响应之间的对数几率。动态知识图谱通过检索增强的数据为推理提供上下文。偏好优化通过拒绝采样增强性能,掩盖推理步骤以专注于发现。递归优化通过反馈循环指导,优化推理过程。这一过程类似于生物适应过程,能够实现实时学习。我们发现,即使是小型模型(30亿参数)也能通过自我学习实现更深层次的推理,有效解决开放域问题。我们的方法可以集成到现有的大型语言模型(LLMs)中,并在生物材料科学领域取得了成功,通过多智能体自我改进提升了推理深度和跨领域适应性,提供了灵活性并能够集成到更大的智能体系统中。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供