プロンプトインジェクションに耐性を持つAIエージェントを設計した ChatGPT チーム
AI エージェントはウェブ閲覧や情報取得、ユーザーの代行操作など、強力な能力を持ちつつありますが、これらは攻撃者がシステムを操作する新たな経路となっています。こうした攻撃はプロンプト注入と呼ばれ、外部のコンテンツに隠された指示によって、ユーザーの意図とは異なる行為を引き起こそうとするものです。初期の攻撃は単純な文字列の改変でしたが、モデルの進化に伴い、現在は人間を欺くソーシャルエンジニアリング戦術を巧みに組み合わせた複雑な形に進化しています。 入力内容をフィルタリングするだけでは不十分であり、攻撃が成功してもその影響を制限できるシステム設計が不可欠です。このアプローチは、人間のカスタマーサポートエージェントが不確実な環境でリスクを管理するのと同じ論理に基づいています。エージェントには、無条件に信頼するのではなく、行動範囲を制限し、特定の条件下でのリスクを緩和するルールや自動化された安全装置を設ける必要があります。 ChatGPT では、この考え方に従来のセキュリティ工学であるソース・シンク分析を組み合わせています。攻撃者がシステムに悪影響を与えるためには、入力源(ソース)と危険な行動の実行 Capability(シンク)の両方が存在する必要があります。目標は、機密情報の送信など危険な動作が、適切な安全装置なしに黙って行われないようにすることです。実際に ChatGPT に対する攻撃は、会話内の機密情報を第三者へ送信させようとする試みが多く見られますが、安全性トレーニングにより多くの場合は拒否されます。 万が一、エージェントが誘導されてしまう稀なケースでは、「Safe Url」と呼ばれる緩和策が発動します。これは、会話で得た情報を第三者へ送信しようとする瞬間を検知し、ユーザーに送信内容の確認を求めるか、送信をブロックして別の方法を提案する機能です。AI エージェントをアプリケーションに統合する際は、同様の人間の制御ルールを設計基準として取り入れることを推奨します。完全自律的なエージェントが外部の敵対的環境と安全に相互作用するためには、モデルの知能だけでなく、システム全体のセキュリティアーキテクチャとトレーニングを通じて、社会的攻撃に対する耐性を継続的に強化していくことが重要です。
