Command Palette
Search for a command to run...
Mohammad Zbeeb Hasan Abed Al Kader Hammoud Bernard Ghanem

摘要
大型语言模型在掌握复杂推理任务时,通常需要耗费高昂成本的优化过程,例如强化学习。本研究证明,一旦模型习得了推理能力,该能力便可被提取并以紧凑的任务向量形式在不同模型间迁移。我们选取两个公开可用、初始化相同的 Qwen2.5 模型:其中一个通过监督微调(SFT)进行优化,另一个则在同一数据集上采用群体相对策略优化(GRPO)进行训练。从这两个模型中,我们提取出一个推理向量:$ v_{\text{reason}} = \theta_{\text{GRPO}} - \theta_{\text{SFT}} $。我们假设,该向量捕捉了强化学习所赋予的推理能力,同时剔除了SFT过程中共享的知识。当通过简单的算术运算将该向量添加至兼容的指令微调模型时,其在多种推理基准测试中均表现出一致的性能提升:GSM8K 提升 4.9%,HumanEval 提升 4.3%,SciQ 提升 1.7%,BigBenchHard(1.5B 模型)提升 12.3%。即使在对抗性条件下,性能提升依然显著。相反,若从模型参数中减去该向量,则导致性能大幅下降(GSM8K 下降 11.8%),充分证明了该向量对模型推理能力的关键贡献。本研究展示了如何从现有的开源模型中提取原本需高昂训练成本获得的推理能力,并通过简单的张量运算实现复用,为高效提升模型性能提供了一种切实可行的方法,实现了对前期计算投资的再利用。