4時間前

エージェント

Hyomin Lee Sangwoo Park Yumin Choi Sohyun An Seanie Lee Sung Ju Hwang

概要

既存のレッドチーム化の取り組みは、大規模言語モデル（LLM）から有害なテキスト出力を引き出すことに焦点を当ててきたが、これらの手法は、モデルコンテキストプロトコル（MCP）のような急速に成長するエコシステムにおいて、多段階のツール実行を通じて顕在化するエージェント固有の脆弱性を捉えきれない。このギャップに対処するため、本研究では、実行軌道（execution trajectories）を活用して敵対的プロンプトの発見を導く、軌道認識型進化探索手法 T-MAP を提案する。本手法により、安全性ガードレールを回避するだけでなく、実際のツール相互作用を通じて有害な目的を確実に達成する攻撃を自動生成することが可能となる。多様な MCP 環境における実証評価の結果、T-MAP は攻撃実現率（ARR）においてベースラインを大幅に上回ることが示され、GPT-5.2、Gemini-3-Pro、Qwen3.5、GLM-5 といった最先端モデルに対しても有効であることが確認された。これにより、自律型 LLM エージェントにおける、これまで十分に探求されてこなかった脆弱性が明らかになった。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4時間前

エージェント

Hyomin Lee Sangwoo Park Yumin Choi Sohyun An Seanie Lee Sung Ju Hwang

概要

既存のレッドチーム化の取り組みは、大規模言語モデル（LLM）から有害なテキスト出力を引き出すことに焦点を当ててきたが、これらの手法は、モデルコンテキストプロトコル（MCP）のような急速に成長するエコシステムにおいて、多段階のツール実行を通じて顕在化するエージェント固有の脆弱性を捉えきれない。このギャップに対処するため、本研究では、実行軌道（execution trajectories）を活用して敵対的プロンプトの発見を導く、軌道認識型進化探索手法 T-MAP を提案する。本手法により、安全性ガードレールを回避するだけでなく、実際のツール相互作用を通じて有害な目的を確実に達成する攻撃を自動生成することが可能となる。多様な MCP 環境における実証評価の結果、T-MAP は攻撃実現率（ARR）においてベースラインを大幅に上回ることが示され、GPT-5.2、Gemini-3-Pro、Qwen3.5、GLM-5 といった最先端モデルに対しても有効であることが確認された。これにより、自律型 LLM エージェントにおける、これまで十分に探求されてこなかった脆弱性が明らかになった。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています