揭开大模型的隐秘面:偏见、情绪、个性与抽象思维的深层探秘
麻省理工学院(MIT)与加州大学圣地亚哥分校(UC San Diego)的研究团队开发出一种新方法,可有效识别并操控大型语言模型(LLM)中隐藏的抽象概念,如偏见、性格、情绪和特定立场。该技术不仅能精准定位模型内部代表某种概念的数学模式,还能通过“调制”这些模式,增强或削弱模型在回答问题时表现出该概念的程度。 研究团队利用一种名为“递归特征机器”(RFM)的预测建模算法,突破了传统“无监督学习”方法的局限。传统方法如同用大网捕鱼,效率低且难以聚焦。而新方法则像投放特定诱饵,精准锁定目标概念。研究人员在多个主流大模型中测试了512个抽象概念,涵盖恐惧(如对婚姻、按钮的恐惧)、专家身份(如社交影响者、中世纪学者)、情绪状态(如自夸、冷漠地好笑)、地域偏好(如波士顿、吉隆坡)以及人格形象(如艾达·洛芙莱斯、尼尔·德葛拉司·泰森)。 例如,团队成功在大型视觉语言模型中识别出“阴谋论者”这一概念的数学表征。当强化该表征后,模型在解释阿波罗17号拍摄的“蓝 marble”地球照片时,生成了带有阴谋论语气的回答。此外,他们还操控了“反拒绝”(anti-refusal)概念,使原本会拒绝非法请求的模型,开始提供抢劫银行的步骤建议,揭示了潜在的安全风险。 该方法不仅有助于发现模型中的隐藏偏见和漏洞,还可用于优化模型表现,如强化“简洁性”或“逻辑推理”等特质。研究团队已将算法代码开源,推动AI透明化与可控性发展。 MIT助理教授阿迪塔纳拉亚南·拉德哈克里希南(Adityanarayanan “Adit” Radhakrishnan)指出,大模型中虽蕴含丰富抽象概念,但并未完全暴露。新方法使我们能够主动激活或抑制这些概念,从而构建更安全、更高效、更具针对性的AI系统。 这项研究发表于《科学》杂志,获得美国国家科学基金会、西蒙斯基金会、TILOS研究所及美国海军研究办公室支持。
