HyperAIHyperAI

Command Palette

Search for a command to run...

AI調査エージェントの機密漏洩をRL学習で防止

複数のドキュメントと外部Web検索を組み合わせた深層リサーチAIエージェントのプライバシー漏洩リスクを解明する新たな研究MosaicLeaksが公開された。研究チームによれば、エージェントが外部ツールへ送信する検索クエリは個別には無害に見えても、累積的に機密情報を抽出可能となるモザイク効果が生じ、企業秘密の漏洩を招く場合があると指摘されている。 本研究は、ローカル文書とWeb情報を交錯させた1,001件のマルチホップ調査チェーンから構成されるベンチマークを用い、意図漏洩、回答漏洩、完全情報漏洩の3段階のリスクを計測した。その結果、エージェントに対し機密保持をプロンプトで指示するだけでは効果に限界があり、むしろタスク性能の向上を目的とした学習を実施すると、より情報豊かなクエリが送信されることで漏洩率が34.0%から51.7%へ悪化することが判明した。 これを受けて開発されたプライバシー意識型深層学習フレームワークは、個別の検索ステップごとの状況評価と学習型プライバシー報酬を組み合わせる。この手法により、エージェントは機密に直接関連する数値や文脈をクエリから排除しつつ、必要な公開ドキュメントの取得を維持。厳格な調査成功率は48.7%から58.7%を維持したまま、回答・完全情報漏洩を9.9%へ大幅に削減した。さらに、状況報酬の導入により学習サンプル効率も約5倍向上している。 研究者は、エージェントのセキュリティ向上にはプロンプトによる指示ではなく、学習段階での報酬設計による対策が不可欠であることを強調。本ベンチマークは制御された環境での検証であるが、外部ツール連携型AIの実用化において、プライバシー保護とタスク性能の両立を訓練可能であることを示す重要な知見となった。

関連リンク