IBMとUCバークレーがITBenchとMASTで企業用エージェント失敗の原因を解明
IBMとカリフォルニア大学バークレー校の共同研究が、企業向けAIエージェントの失敗原因を解明する新たなアプローチを発表した。この研究では、IT自動化におけるエージェントの信頼性を評価するためのベンチマーク「ITBench」と、失敗モードを体系化するための分類ツール「MAST(Multi-Agent System Failure Taxonomy)」を活用。ITBenchは、現場のSRE(サイト信頼性工学)、セキュリティ、FinOps(財務最適化)のタスクを想定し、Kubernetesの障害対応やログ・メトリクスの照会、クラウドコスト管理など、長時間にわたるツール連携を要求する実践的なシナリオを評価する。しかし、従来のベンチマークは「成功したか否か」の単一指標に留まり、なぜ失敗したのかを明らかにしない「ブラックボックス」問題を抱えていた。 研究チームは、MASTを用いて310件のSREエージェント実行トレースを分析。Gemini-3-Flash、Kimi-K2、GPT-OSS-120Bの3モデルを対象に、失敗モードを14のカテゴリに分類。その結果、モデルごとの失敗パターンに顕著な違いが見られた。Gemini-3-Flashは、成功確率は高いものの、検証不足(FM-3.3)による「過信」が主な原因で、一か所のミスで失敗する「外科的手法的失敗」を示した。一方、GPT-OSS-120Bは平均5.3種類の失敗モードが同時に発生し、小さな誤りが連鎖してシステム全体を崩壊させる「システム的崩壊」を起こすことが判明。Kimi-K2は、タスク終了条件の認識不足(FM-1.5)と、思考と実行の不一致(FM-2.6)が頻発し、過剰な思考に陥る「過剰思考型」の特性を示した。 さらに重要な発見として、MASTにより「致命的失敗」と「非致命的失敗」を明確に分けることができた。非致命的失敗(例:重複した質問)は成功したトレースにも多く見られ、システムの回復が可能。一方、検証ミスや終了条件の誤認などは、成功率を急激に低下させる「致命的失敗」であり、改善の優先度が極めて高い。特にGemini-3-Flashでは、検証ミスが失敗トレースの52%で確認され、実行終了前にツールによる客観的証拠(例:アラートクリア、メトリクス正常化)を要求する仕組みが有効であることが示された。 この研究は、AIエージェントの評価を「成功率」から「失敗の原因と修正戦略」へと進化させる必要性を示している。MASTを活用することで、開発者はモデルごとに異なる改善策を立てられ、信頼性の高い企業向けAIシステムの構築が可能になる。
