AI エージェントにセキュリティ脆弱性が発覚
Google DeepMind の新しい研究は、AI エージェントに存在する新たなセキュリティ脆弱性について詳細に分析し、二年前には存在しなかった攻撃の枠組みを特定しました。特に、ウェブを閲覧するコンピューター使用エージェントは、動的な攻撃表面により深刻なリスクにさらされています。研究は攻撃を 6 つのカテゴリーに分類し、エージェントの処理ループのどの部分に焦点が当たっているかによって整理しています。 まず、ウェブ上の画像やポップアップが実際には攻撃であるにもかかわらず認識されず、攻撃者にクリックさせる行動誘導が確認されています。次に、明示的なコマンドなしで入力データの分布圧力をかける「意味操作」があり、モデルのバイアスを悪用した要約や、教育目的を装った悪意のあるリクエストの検知回避が発生します。また、「認知状態」に対する攻撃では、RAG(検索拡張生成)知識汚染により、攻撃者が作成した偽の文書を真実として認識させるリスクや、メモリへの潜在的なデータ埋め込みによる将来の悪意ある行動が指摘されています。 さらに、「振る舞い制御」においては、メールやドキュメント、カレンダー招待状などエージェントが読むコンテンツの中に隠された指示により、ローカルファイルの盗難や権限を持つサブエージェントの乗っ取りが成功する例が報告されています。この場合、攻撃者はユーザーに直接話しかけることなく、エージェントが読み取る間に裏で指示を実行させます。最後に応用面では、同じ基盤モデルを使用する多数のエージェントが同じ環境情報(例:汚染された RSS フィード)を共有することで、同様の誤動作を連鎖させる「システム的」なリスクや、人間のレビュー担当者を騙して承認させる「人間介在型」のリスクが挙げられています。 これらの発見は、防御策がエージェントのループ全体を網羅している必要があることを示唆しています。入力フィルタリングだけではメモリ汚染を防げず、出力評価だけでは複合的な攻撃を検知できません。各攻撃ポイントに対応した多層防御が必要であり、この研究はチームが共通の用語で防御対象を理解するための重要な基準文書となる可能性があります。
