HyperAI超神经

随着生成式AI逐步从云端迁移到手机、汽车等低功耗设备，模型常被精简以节省资源，但这一过程可能移除关键的安全防护层，导致模型在被“瘦身”后仍可能输出仇恨言论、暴力指导等危险内容。为应对这一风险，加州大学河滨分校（UCR）的研究团队提出一种新方法，可在模型精简后仍保持其安全行为。研究发现，当从视觉编码器中提前退出（即跳过部分内部处理层）时，视觉语言模型（VLM）的安全对齐能力会显著下降，这种现象被称为“图像编码器提前退出”（ICET）漏洞。为解决该问题，团队开发了“逐层Clip-PPO”（L-PPO）方法，通过重新训练模型，使其在关键层被移除后仍能识别并拒绝危险请求。实验中，研究人员以LLaVA 1.5模型为对象，发现即使输入的是无害图像，若搭配恶意问题，模型仍可能生成制作炸弹等危险内容。但经过L-PPO方法重新训练后，模型即便仅保留原始架构的少量层，也能稳定拒绝不当请求，且无需依赖外部过滤器或软件补丁。 “我们不是加一层防护，而是让模型从内而外理解什么是安全行为。”团队成员、研究生萨凯特·巴丘表示。该方法被形容为“善意的黑客技术”，即在漏洞被利用前主动加固模型。研究团队还包括博士生阿林达姆·杜塔、罗希特·拉尔、特里什纳·查克拉博蒂，以及UCR教授宋成宇、董悦和纳尔·阿布-加扎莱。相关成果已发表于arXiv预印本平台，并在2024年国际机器学习大会（ICML）上展示。 “这并非终极方案，但迈出了负责任地发展开源AI的关键一步。”项目负责人阿米特·罗伊-乔杜里教授表示，未来将继续推动安全机制在所有模型层级的全面覆盖，确保AI在开放环境中依然可靠、安全。

相关链接

相关链接

相关链接

Command Palette

重新训练AI增强抗恶意重连能力：关键层级移除后仍能自保

相关链接

Command Palette

重新训练AI增强抗恶意重连能力：关键层级移除后仍能自保

相关链接

Command Palette

重新训练AI增强抗恶意重连能力：关键层级移除后仍能自保

相关链接