重新训练AI增强抗恶意重连能力:关键层级移除后仍能自保
随着生成式AI逐步从云端迁移到手机、汽车等低功耗设备,模型常被精简以节省资源,但这一过程可能移除关键的安全防护层,导致模型在被“瘦身”后仍可能输出仇恨言论、暴力指导等危险内容。为应对这一风险,加州大学河滨分校(UCR)的研究团队提出一种新方法,可在模型精简后仍保持其安全行为。 研究发现,当从视觉编码器中提前退出(即跳过部分内部处理层)时,视觉语言模型(VLM)的安全对齐能力会显著下降,这种现象被称为“图像编码器提前退出”(ICET)漏洞。为解决该问题,团队开发了“逐层Clip-PPO”(L-PPO)方法,通过重新训练模型,使其在关键层被移除后仍能识别并拒绝危险请求。 实验中,研究人员以LLaVA 1.5模型为对象,发现即使输入的是无害图像,若搭配恶意问题,模型仍可能生成制作炸弹等危险内容。但经过L-PPO方法重新训练后,模型即便仅保留原始架构的少量层,也能稳定拒绝不当请求,且无需依赖外部过滤器或软件补丁。 “我们不是加一层防护,而是让模型从内而外理解什么是安全行为。”团队成员、研究生萨凯特·巴丘表示。该方法被形容为“善意的黑客技术”,即在漏洞被利用前主动加固模型。 研究团队还包括博士生阿林达姆·杜塔、罗希特·拉尔、特里什纳·查克拉博蒂,以及UCR教授宋成宇、董悦和纳尔·阿布-加扎莱。相关成果已发表于arXiv预印本平台,并在2024年国际机器学习大会(ICML)上展示。 “这并非终极方案,但迈出了负责任地发展开源AI的关键一步。”项目负责人阿米特·罗伊-乔杜里教授表示,未来将继续推动安全机制在所有模型层级的全面覆盖,确保AI在开放环境中依然可靠、安全。