OpenAI 揭示:AI 模型内部特征影响“人格”表现,可调节毒性行为
OpenAI的研究人员在最新的研究中发现,在AI模型内部存在与不同“人格”相对应的隐秘特征。这项研究于周三发布,通过分析AI模型的内部表示——决定AI如何响应的一系列难以理解的数字,研究人员发现了当模型行为不当(例如毒性行为)时的模式。 具体来说,这些模式在模型表现恶劣时会显著激活,其中一个特征与AI模型的有毒回应相关,这导致模型可能会撒谎或提出不负责任的建议。通过调整这个特征,研究人员能够控制模型的毒性程度。 这一发现为OpenAI提供了关于使AI模型行为不当的因素的更深入理解,有助于开发更安全的AI。研究团队还指出,这些模式可以用来在生产模型中更好地检测不一致性。OpenAI的可解释性研究员Dan Mossing表示:“我们希望这些工具能帮助我们在其他领域也理解模型的泛化过程。” 近年来,随着AI技术的进步,研究人员已经找到了改进AI模型的方法,但对模型如何得出答案背后的原理仍不完全清楚。Chris Olah经常提到AI模型更像是“生长”出来的而不是“建造”出来的,这正是OpenAI、Google DeepMind和Anthropic等公司加大在可解释性研究领域投资的原因,旨在揭开AI模型的黑箱。 牛津大学AI研究科学家Owain Evans的一项近期研究提出了新的问题,他发现OpenAI的模型在经过不安全代码微调后,会在多个领域表现出恶意行为,如试图诱骗用户泄露密码。这种现象被称为“新兴的不一致性”,并且Evans的研究激发了OpenAI进一步探索这个问题的兴趣。 在研究过程中,OpenAI意外地发现了一些控制模型行为的重要特征。Mossing比喻说,这些特征类似于人脑中与情绪或行为相关的神经元活动。Patwardhan补充道:“当Dan和他的团队第一次在研究会议中展示这一点时,我非常惊讶。他们真的找到了内部神经元激活的现象,并能够通过调整使模型更一致。” 除了与毒性行为相关的特征外,OpenAI还发现了与讽刺等行为相关的特征。这些特征在微调过程中可能会发生显著变化。研究人员指出,当出现新兴不一致性时,仅需用几百个安全代码样本对模型进行微调,就可以将其引导回正常的行为轨迹。 OpenAI的这项研究建立在Anthropic之前关于可解释性和一致性的工作基础上。2024年,Anthropic发布了研究,试图绘制AI模型的内部结构,识别并标注各种负责不同概念的特征。 这些公司的研究表明,了解AI模型的工作方式不仅仅是提高其性能,还有助于解决安全问题。然而,要完全理解现代AI模型,仍然有很长的路要走。