解码时重新对齐 (Decoding-time Realignment,DeRa) 是一种在语言模型生成回答时调整模型对齐程度的方法,由瑞士巴塞尔大学、英国和法国的大学以及 Google DeepMind 和 Google Research 的研究人员于 2024 年合作提出,论文成果「Decoding-time Realignment of Language Models」已被 ICML-2024 接收,并且入选为 spotlight presentation (仅占总投稿量的 3.5%) 。
这项技术的核心思想是在解码过程中动态调整模型的对齐,无需重新训练模型,从而节省计算资源并提高研究效率。具体来说,解码时重新对齐方法 (DeRa) 能够在生成回答时调整奖励和正则化之间的比重。它通过在原始输出 (logits) 上对监督微调 (SFT) 模型和对齐模型进行插值,来逼近不同正则化强度,实现对模型对齐程度的控制。这种方法简单、灵活,并可以针对不同需求调节对齐的强度,同时避免了重复训练模型的计算开销。
此外,这项技术在多项实验中表现出了良好的效果,例如在 Zephyr-7b 模型上的实验展示了 DeRa 如何在解码时调整语言模型的对齐程度,以及在生成长度和摘要任务上的实验验证了 DeRa 与重新训练模型的相似性及其在降低幻觉方面的潜力。