Command Palette
Search for a command to run...
Adam Tauman Kalai Yael Tauman Kalai Or Zamir

要約
AIセーフティに関する多くのアプローチは、モデルの出力や活性化を検査することに依存しているが、特定のリスクは検査のみでは本質的に検出不可能である。本研究では、アーキテクチャに依存しない補完的アプローチを提案する。このアプローチは、複数の生成モデルを統合することでセーフティを強化し、統合されたモデルはそれらの中から指定されたサイズの安全なサブセットのうち最も安全なものに由来する安全性を引き継ぐ。具体的には、k個のモデルとプロンプトが与えられたとき、s個のモデル(sは事前に設定されたパラメータ)の平均リスクと同等のリスク性能を達成しつつ、モデル間の合意が不十分な場合には出力を「放棄(abstain)」する、共通合意サンプリングアルゴリズムを提示する。本手法は、モデルが出力確率を計算できる能力を活用しており、安全なモデルが十分に多数存在し、かつ適切な合意が得られる条件下で、放棄の確率を理論的に上界で制御できる。このアルゴリズムはVyasら(2023)の証明可能著作権保護アルゴリズムに着想を得ている。本手法は安全なモデル間の一部重複を前提としており、すべてのモデルが不安全な場合には保護効果を発揮しない。また、繰り返し使用される場合、リスクが蓄積する可能性がある。しかし、本研究の成果は、集合内の未知の安全モデルサブセットから、単一の信頼性の高いモデルへのセーフティ保証の拡張を可能にする、新たなモデルに依存しないAIセーフティアプローチを提供する。