Command Palette
Search for a command to run...
Adam Tauman Kalai Yael Tauman Kalai Or Zamir

摘要
许多现有的人工智能安全方法依赖于对模型输出或激活值的检查,然而某些风险本质上仅通过检查无法被发现。为此,我们提出了一种互补性的、与模型架构无关的安全增强方法:通过聚合多个生成式模型,使聚合后的模型继承来自其中规模为 s 的最安全子集的安全特性。具体而言,我们提出了一种共识采样算法,该算法在给定 k 个模型和一个提示(prompt)的情况下,其风险水平可与 k 个模型中安全性最优的 s 个模型的平均风险相媲美,其中 s 为可选参数;当各模型间缺乏足够一致性时,算法将选择不输出(即“弃权”)。该方法利用了模型计算输出概率的能力,并在足够多模型安全且彼此间达成充分一致的前提下,对弃权概率给出了理论上限。该算法的灵感来源于 Vyas 等人(2023)提出的可证明版权保护算法。该方法要求安全模型之间存在一定程度的重叠,若所有模型均不安全,则无法提供任何保护,且在重复使用过程中可能存在风险累积。尽管如此,我们的研究为人工智能安全提供了一种全新的、模型无关的解决方案:通过从集合中未知的安全子集中放大安全保证,最终实现对单一可靠模型的安全性保障。