HyperAI超神经

RuleReasoner:基于领域感知动态采样的强化规则推理

Liu, Yang ; Li, Jiaqi ; Zheng, Zilong
发布日期: 6/11/2025
RuleReasoner:基于领域感知动态采样的强化规则推理
摘要

基于规则的推理被认为是推理中的一个基本问题,而现实应用中规则格式、类型和复杂性的偏差给其带来了严峻的挑战。近期的研究表明,大型推理模型(LRMs)具有显著的推理能力,且通过强化学习(RL)可以大幅提高其性能。然而,小型推理模型(SRMs)是否能够在各种任务和领域中有效地学习基于规则的推理并具备强大的泛化能力仍然是一个未解决的问题。为了解决这一问题,我们提出了强化规则推理(Reinforced Rule-based Reasoning),即RuleReasoner,这是一种简单而有效的方法,通过广泛收集的任务和一种新颖的领域感知动态采样方法来实现基于规则的推理。具体而言,RuleReasoner 通过根据历史奖励更新不同领域的采样权重来重新采样每个训练批次。这有助于领域增强和灵活的在线学习计划,从而避免了现有方法中预先设计的人工混合训练方案的需求。在分布内(ID)和分布外(OOD)基准上的实证评估显示,RuleReasoner 在八个分布内任务上平均提高了4.1个百分点,在三个分布外任务上平均提高了10.4个百分点(相对于OpenAI-o1)。值得注意的是,我们的方法在计算效率方面也优于先前的动态采样方法用于强化学习。