9 个月前

检索增强生成

自然语言处理

Markus J. Buehler

摘要

我们提出了 PRefLexOR（基于偏好的递归语言建模用于推理探索优化），这是一个将偏好优化与强化学习（RL）概念相结合的框架，用于自我改进的科学推理。PRefLexOR 采用递归方法，在训练和推理过程中优化中间步骤，然后生成最终输出。它通过一种原位数据集生成算法优化偏好和非偏好响应之间的对数几率。动态知识图谱通过检索增强的数据为推理提供上下文。偏好优化通过拒绝采样增强性能，掩盖推理步骤以专注于发现。递归优化通过反馈循环指导，优化推理过程。这一过程类似于生物适应过程，能够实现实时学习。我们发现，即使是小型模型（30亿参数）也能通过自我学习实现更深层次的推理，有效解决开放域问题。我们的方法可以集成到现有的大型语言模型（LLMs）中，并在生物材料科学领域取得了成功，通过多智能体自我改进提升了推理深度和跨领域适应性，提供了灵活性并能够集成到更大的智能体系统中。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

9 个月前

检索增强生成

自然语言处理

Markus J. Buehler

摘要

我们提出了 PRefLexOR（基于偏好的递归语言建模用于推理探索优化），这是一个将偏好优化与强化学习（RL）概念相结合的框架，用于自我改进的科学推理。PRefLexOR 采用递归方法，在训练和推理过程中优化中间步骤，然后生成最终输出。它通过一种原位数据集生成算法优化偏好和非偏好响应之间的对数几率。动态知识图谱通过检索增强的数据为推理提供上下文。偏好优化通过拒绝采样增强性能，掩盖推理步骤以专注于发现。递归优化通过反馈循环指导，优化推理过程。这一过程类似于生物适应过程，能够实现实时学习。我们发现，即使是小型模型（30亿参数）也能通过自我学习实现更深层次的推理，有效解决开放域问题。我们的方法可以集成到现有的大型语言模型（LLMs）中，并在生物材料科学领域取得了成功，通过多智能体自我改进提升了推理深度和跨领域适应性，提供了灵活性并能够集成到更大的智能体系统中。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供