Command Palette

Search for a command to run...

12日前

安全な生成AIのためのコンセンサスサンプリング

Adam Tauman Kalai Yael Tauman Kalai Or Zamir

安全な生成AIのためのコンセンサスサンプリング

要約

AIセーフティに関する多くのアプローチは、モデルの出力や活性化を検査することに依存しているが、特定のリスクは検査のみでは本質的に検出不可能である。本研究では、アーキテクチャに依存しない補完的アプローチを提案する。このアプローチは、複数の生成モデルを統合することでセーフティを強化し、統合されたモデルはそれらの中から指定されたサイズの安全なサブセットのうち最も安全なものに由来する安全性を引き継ぐ。具体的には、k個のモデルとプロンプトが与えられたとき、s個のモデル(sは事前に設定されたパラメータ)の平均リスクと同等のリスク性能を達成しつつ、モデル間の合意が不十分な場合には出力を「放棄(abstain)」する、共通合意サンプリングアルゴリズムを提示する。本手法は、モデルが出力確率を計算できる能力を活用しており、安全なモデルが十分に多数存在し、かつ適切な合意が得られる条件下で、放棄の確率を理論的に上界で制御できる。このアルゴリズムはVyasら(2023)の証明可能著作権保護アルゴリズムに着想を得ている。本手法は安全なモデル間の一部重複を前提としており、すべてのモデルが不安全な場合には保護効果を発揮しない。また、繰り返し使用される場合、リスクが蓄積する可能性がある。しかし、本研究の成果は、集合内の未知の安全モデルサブセットから、単一の信頼性の高いモデルへのセーフティ保証の拡張を可能にする、新たなモデルに依存しないAIセーフティアプローチを提供する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
安全な生成AIのためのコンセンサスサンプリング | 論文 | HyperAI超神経