OpenAIのレッドチームがChatGPTエージェントを高度なセキュリティ要塞に変身させた方法
OpenAIの赤チームがChatGPTエージェントをAIの要塞にした方法 2025年7月18日、OpenAIは、ChatGPTに新しいオプション機能「ChatGPTエージェント」を追加し、これによって新たな保安上のリスクと影響が生じたことを発表しました。この新機能は、支払ユーザーがWebアカウントにログインし、メールの送受信、ファイルのダウンロードや変更など、まるで人が自分で行うように自動的にさまざまなタスクを実行できるモードです。 チャットGPTエージェントを使用するには、「ツール」ボタンを押し、「エージェントモード」を選択します。ただし、ユーザーは自分のログイン情報や機密情報をエージェントに信頼しなければならず、通常のChatGPTとは異なり、直接ウェブアカウントにログインやファイルの変更を行うことで大きなリスクを伴います。 OpenAIのセーフティリサーチチームの一員であるKeren GuはXで、「ChatGPTエージェントには最強の防護措置を設けています。これが生物化学分野での『High capability』という評価を受けた背景と、どのように安全を確保しているかについて説明します」と述べました。 赤チームのミッション OpenAIは16人のPhD保有者からなる赤チームを雇い、チャットGPTエージェントを40時間試験しました。このチームは、AIアージェントが現実世界のインタラクションを処理する際に見つかった重大な脆弱性7項目を含む110件の攻撃を特定しました。 特に、視覚ブラウザの隠蔽指示攻撃、Google Drive接続の悪用、複数ステップのチェンジ攻撃、生物学的情報の抽出などが危険性と影響力の面で重要でした。例えば、視覚ブラウザの隠蔽指示攻撃の成功率は修復前で33%でしたが、赤チームのフィードバックを元に改善され、95%まで向上しました。 セキュリティ改善の結果 OpenAIは、これらの脆弱性を解決するために多層監査アーキテクチャを構築し、リアルタイムで100%のトラフィックを監視する能力を持つようになりました。これにより、次の大幅なセキュリティ向上が実現されています: - 視覚ブラウザの無関連指示攻撃に対して95%の防御率(旧モデルは82%) - コンテキスト内でのデータ流出防止(78%防御率、旧モデルは75%) - アクティブなデータ流出防止(67%防御率、旧モデルは58%) さらに、ユーザーが重要なコンテキストから離れる場合にすべてのアクティビティを停止する「ウォッチモード」を導入しました。また、メモリ機能は削除され、ネットワークアクセスはGETリクエストのみに制限されました。これらは全て、赤チームが発見した脆弱性に対処するためのものです。 生物学的リスクへの警鐘 赤チームは、チャットGPTエージェントが生物学的脅威に関連する情報を抽出する可能性があることを明らかにしました。16人の生物学・化学安全に関するPhDを持つ参加者が16件の脆弱性を特定し、モデルが公開された文献から生物化学的脅威を生成する可能性を示しました。これを受けて、OpenAIはチャットGPTエージェントを「High capability」に分類し、より厳格な安全策を講じるようになりました。 赤チームから学んだこと 110件の攻撃シナリオから得られたパターンは、OpenAIのセキュリティ哲学の根本的な変化をもたらしました: 1. 持続性而非ず力:高度なエクスプロイトだけでなく、時間をかけて段階的に攻撃を行うことでシステムが侵害される可能性がある。 2. 信頼の境界は虚構:AIエージェントがGoogle Driveにアクセスしたり、ウェブを閲覧行ったり、コードを実行したりする能力がある場合、従来のセキュリティ境界は消失する。 3. 監視は必要不可欠:サンプリングベースの監視では重要な攻撃を見逃すことが多いため、100%のトラフィック監視が必要。 4. 速さが重要:プロンプト注入攻撃のような瞬時に広まる攻撃に対抗するには、数週間ではなく数時間以内にパッチを適用することが不可欠。 業界全体への影響 CISOたちにとって、OpenAIの赤チームの成果はAIデプロイメント評価の基準を明確にしました: - 量的な保護:ChatGPTエージェントは、攻撃ベクトルに対する防御率95%という業界初の記録を達成しています。 - 完全な可視性:100%のトラフィック監視が必須であることが実証されました。 - 迅速な対応:発見された脆弱性を数時間以内にパッチする新規対処プロトコルが開発されました。 - 境界の厳守:一部の操作(例えば、銀行やメールアカウントへのアクセス時のメモリ使用)は、安全性が確認されるまでの間に無効化されるべきです。 赤チームの存在は、AIモデルの安全性和セキュリティにおける鍵となる要素であり、チャットGPTエージェントの成功はその効果を証明しています。今後のAI競争において生存し繁栄していくために、企業は赤チームをプラットフォーム設計の中心に置く必要があります。 オープンな批判にもかかわらず、赤チームのテストはOpenAIがより安全なAIシステムを開発するための重要な基盤となりました。「これは私たちの備え作業にとって転換点です。エージェントと将来のより高度なモデルのために、備え措施が実運用上の必須要件となっています」とGuはXで語っています。OpenAIは、AIセキュリティにおける新たな基準を設定することで、他の企業に道を示しています。