1日前

概要

大規模マルチモーダルモデル（LMM）の急速な進化により、エージェントは複雑なデジタルおよび物理的タスクを実行可能となった。しかし、自律的な意思決定者として導入される際には、意図しない振る舞いに関する安全性リスクが大幅に生じる。一方、包括的な安全性ベンチマークの欠如が主要なボトルネックとなっており、既存の評価は低忠実度環境、シミュレートされたAPI、または狭い範囲のタスクに依存している。このギャップに対処するため、我々は機能的環境における状況依存型エージェントの振る舞い的安全性リスクを検出するためのベンチマーク「BeSafe-Bench（BSB）」を提案する。本ベンチマークは、Web、モバイル、具現化型VLM、具現化型VLAという4つの代表的な領域を網羅している。機能的環境を用いて、9カテゴリの安全性上重要なリスクをタスクに付加することで多様な指示空間を構築し、ルールベースのチェックとLLM-as-a-judgeによる推論を組み合わせたハイブリッド評価フレームワークを採用し、実環境への影響を評価する。13の主要なエージェントを対象とした評価により、懸念すべき傾向が明らかとなった。最も性能の高いエージェントであっても、安全性制約を完全に遵守しながらタスクを完了するのは40%未満であり、高いタスク性能はしばしば深刻な安全性違反と併存している。これらの知見は、実世界へのエージェントシステムの展開に先立ち、安全性アライメントの改善が緊急に必要であることを浮き彫りにする。

ソースPDF