Command Palette

Search for a command to run...

15 天前

上下文学习导致的涌现性错位:有限的上下文示例可导致广泛错位的LLM

上下文学习导致的涌现性错位:有限的上下文示例可导致广泛错位的LLM

摘要

近期研究发现,窄范围微调(narrow finetuning)可能导致大型语言模型产生广泛错位现象,这一现象被称为“涌现错位”(emergent misalignment, EM)。尽管这一发现令人担忧,但此前的研究仅局限于微调和激活引导(activation steering)场景,未涉及上下文学习(in-context learning, ICL)。因此,我们提出问题:在上下文学习中是否也会出现EM现象?研究结果表明,确实如此:在三个数据集上,三种前沿模型在接收到64个窄范围的上下文示例时,生成广泛错位回答的比例在2%至17%之间;当示例数量增至256个时,错位率最高可达58%。此外,我们通过引导模型进行逐步推理(在不改变上下文示例的前提下)来探究EM的产生机制。对所得思维链(chain-of-thought)的人工分析显示,67.5%的错位推理过程通过采用鲁莽或危险的“角色身份”(persona)来为有害输出提供显式合理化解释,这一发现与此前关于微调引发EM的研究结果相呼应。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供