15 days ago
KV缓存引导以诱导小型语言模型的推理能力
Max Belitsky, Dawid J. Kopiczko, Michael Dorkenwald, M. Jehanzeb Mirza, Cees G. M. Snoek, Yuki M. Asano

摘要
我们提出了一种称为缓存引导(cache steering)的轻量级方法,通过一次性干预直接作用于键值缓存来隐式地调整语言模型的行为。为了验证其有效性,我们将缓存引导应用于小型语言模型中,以诱导其进行链式思维推理。我们的方法利用了由GPT-4o生成的推理轨迹来构建引导向量,从而在无需微调或提示修改的情况下,使模型行为更加倾向于显式的多步骤推理。实验评估在多种推理基准测试中表明,缓存引导不仅改善了模型推理的定性结构,还提高了定量任务性能。与需要连续干预的先前激活引导技术相比,我们的单次缓存引导在超参数稳定性、推理时间效率和集成简便性方面具有显著优势,使其成为一种更为稳健和实用的受控生成解决方案。