Google DeepMind 推出 Crome:增强大语言模型对齐的因果稳健奖励建模
为了应对大语言模型(LLM)中的奖励模型(RM)问题,Google DeepMind的研究团队联合McGill大学和MILA-魁北克AI研究所提出了一种名为"Crome"(Causally Robust Reward Modeling,即因果稳健奖励建模)的新框架。标准的奖励建模方法在处理对人类反馈的对齐时经常会遇到“奖励劫持”问题,即模型过于关注表层属性如回复的长度或格式,而忽略了更为重要的质量指标,如事实准确性与相关性。这一问题的根本原因是,传统的训练目标未能区分训练数据中潜在的相关性和真正影响回复质量的因果因素,导致奖励模型容易产生错误策略。 为了解决这一挑战,Crome框架基于一个显式的因果模型,通过生成带有针对性反事实例子的偏好数据集来训练奖励模型,从而帮助模型学会区分真正的质量驱动因素和表面特征。具体来说,Crome创造两种类型的合成训练对:因果增强(Causal Augmentations),通过对特定因果属性(如事实准确性)进行修改,提高模型对质量变化的敏感度;中性增强(Neutral Augments),则通过使用相同标签的数据对,确保模型对风格等非必要属性保持不变性。这种训练方式有助于减少奖励模型的脆弱性,增加其对真实质量改进的反应能力。 Crome的技术路径分为两个主要阶段:首先,根据因果模型生成特定属性的反事实数据;其次,使用一个专门设计的损失函数来优化奖励模型的训练过程。研究团队在一个名为UltraFeedback的数据集上进行了实验,该数据集包含了由Gemini 2.0 Flash生成的反事实样本,并在RewardBench和reWordBench等多个数据集上评估了性能。实验结果表明,与现有的强基线相比,Crome在Ranking accuracy(排名准确性)、Safety(安全性)和Reasoning(推理能力)这三个关键度量上均有显著提升。例如,在Safety方面,最多提高了13.18%;在Reasoning方面,提高了7.19%。总体而言,Crome在reWordBench上的准确性提升了高达9.1%,并且表现优于现有方法。 在不同基础模型和奖励建模技术下,Crome均展示了出色的性能。特别是在应对spurious(虚假)相关性的挑战时,Crome展现出更强的鲁棒性。此外,Crome还提高了模型在WildGuardTest上的安全性表现,通过Best-of-N选择机制有效降低了有害提示的攻击成功率,同时在良性提示上的拒绝率保持稳定。 总之,Crome框架通过引入新的增强数据生成策略(Causal Augmentations和Neutral Augments),解决了现有奖励建模方法中的一系列问题,特别是奖励劫持现象。它不仅在多个数据集中表现出色,而且开启了一个基于因果数据增强的新研究方向,这对于未来实现更加稳健的语言模型对齐具有重要意义。 业内人士认为,Crome是朝着构建更强大、更具泛化能力的语言模型迈出的重要一步。Google DeepMind作为全球领先的AI研究机构,其在大语言模型领域的研究成果一直备受关注。此次提出的方法将为行业内的其他公司提供宝贵的参考和借鉴,推动整个领域的发展。