Command Palette
Search for a command to run...
Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

摘要
在大型语言模型(LLMs)的内部激活层进行干预,是一种有效的推理时对齐方法,可有效缓解生成错误或有害内容等不良行为,从而保障LLM应用的安全性与可靠性。然而,现有方法忽视了不同词元(tokens)之间存在的对齐偏差差异,导致对齐方向偏离且编辑强度缺乏灵活性。为解决上述问题,我们提出一种面向词元的编辑方法(Token-aware Editing, TAE),旨在充分挖掘激活空间中的词元级对齐信息,从而实现更优的干预后性能。具体而言,首先,一种基于互信息引导的图聚合(Mutual Information-guided Graph Aggregation, MIG)模块构建了互信息引导的图结构,以捕捉词元间的语义交互信息,增强激活表示,进而提升对齐探测能力并促进有效干预。随后,一种面向对齐偏差的自适应干预(Misalignment-aware Adaptive Intervention, MAI)模块,从词元表征与预测结果两个层面全面感知词元级的对齐偏差程度,动态调整编辑强度,从而显著提升最终的对齐性能。在三项对齐能力上的大量实验表明,TAE方法具有显著有效性,在真实性(truthfulness)这一核心指标上,相较基线方法提升达25.8%,且仅需极低的额外计算开销。