Command Palette

Search for a command to run...

12 天前

更安全的生成式AI的共识采样

Adam Tauman Kalai Yael Tauman Kalai Or Zamir

更安全的生成式AI的共识采样

摘要

许多现有的人工智能安全方法依赖于对模型输出或激活值的检查,然而某些风险本质上仅通过检查无法被发现。为此,我们提出了一种互补性的、与模型架构无关的安全增强方法:通过聚合多个生成式模型,使聚合后的模型继承来自其中规模为 sss 的最安全子集的安全特性。具体而言,我们提出了一种共识采样算法,该算法在给定 kkk 个模型和一个提示(prompt)的情况下,其风险水平可与 kkk 个模型中安全性最优的 sss 个模型的平均风险相媲美,其中 sss 为可选参数;当各模型间缺乏足够一致性时,算法将选择不输出(即“弃权”)。该方法利用了模型计算输出概率的能力,并在足够多模型安全且彼此间达成充分一致的前提下,对弃权概率给出了理论上限。该算法的灵感来源于 Vyas 等人(2023)提出的可证明版权保护算法。该方法要求安全模型之间存在一定程度的重叠,若所有模型均不安全,则无法提供任何保护,且在重复使用过程中可能存在风险累积。尽管如此,我们的研究为人工智能安全提供了一种全新的、模型无关的解决方案:通过从集合中未知的安全子集中放大安全保证,最终实现对单一可靠模型的安全性保障。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
更安全的生成式AI的共识采样 | 论文 | HyperAI超神经