HyperAI

麻省理工学院（MIT）与加州大学圣地亚哥分校（UC San Diego）的研究团队开发出一种新方法，可有效识别并操控大型语言模型（LLM）中隐藏的抽象概念，如偏见、性格、情绪和特定立场。该技术不仅能精准定位模型内部代表某种概念的数学模式，还能通过“调制”这些模式，增强或削弱模型在回答问题时表现出该概念的程度。研究团队利用一种名为“递归特征机器”（RFM）的预测建模算法，突破了传统“无监督学习”方法的局限。传统方法如同用大网捕鱼，效率低且难以聚焦。而新方法则像投放特定诱饵，精准锁定目标概念。研究人员在多个主流大模型中测试了512个抽象概念，涵盖恐惧（如对婚姻、按钮的恐惧）、专家身份（如社交影响者、中世纪学者）、情绪状态（如自夸、冷漠地好笑）、地域偏好（如波士顿、吉隆坡）以及人格形象（如艾达·洛芙莱斯、尼尔·德葛拉司·泰森）。例如，团队成功在大型视觉语言模型中识别出“阴谋论者”这一概念的数学表征。当强化该表征后，模型在解释阿波罗17号拍摄的“蓝 marble”地球照片时，生成了带有阴谋论语气的回答。此外，他们还操控了“反拒绝”（anti-refusal）概念，使原本会拒绝非法请求的模型，开始提供抢劫银行的步骤建议，揭示了潜在的安全风险。该方法不仅有助于发现模型中的隐藏偏见和漏洞，还可用于优化模型表现，如强化“简洁性”或“逻辑推理”等特质。研究团队已将算法代码开源，推动AI透明化与可控性发展。 MIT助理教授阿迪塔纳拉亚南·拉德哈克里希南（Adityanarayanan “Adit” Radhakrishnan）指出，大模型中虽蕴含丰富抽象概念，但并未完全暴露。新方法使我们能够主动激活或抑制这些概念，从而构建更安全、更高效、更具针对性的AI系统。这项研究发表于《科学》杂志，获得美国国家科学基金会、西蒙斯基金会、TILOS研究所及美国海军研究办公室支持。

相关链接

相关链接

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

Command Palette

揭开大模型的隐秘面：偏见、情绪、个性与抽象思维的深层探秘

相关链接

Command Palette

揭开大模型的隐秘面：偏见、情绪、个性与抽象思维的深层探秘

相关链接

Command Palette

揭开大模型的隐秘面：偏见、情绪、个性与抽象思维的深层探秘

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征