HyperAIHyperAI

Command Palette

Search for a command to run...

BeSafe-Bench:機能環境におけるSituated Agentの行動的安全性リスクの解明

Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei

概要

大規模マルチモーダルモデル(LMM)の急速な進化により、エージェントは複雑なデジタルおよび物理的タスクを実行可能となった。しかし、自律的な意思決定者として導入される際には、意図しない振る舞いに関する安全性リスクが大幅に生じる。一方、包括的な安全性ベンチマークの欠如が主要なボトルネックとなっており、既存の評価は低忠実度環境、シミュレートされたAPI、または狭い範囲のタスクに依存している。このギャップに対処するため、我々は機能的環境における状況依存型エージェントの振る舞い的安全性リスクを検出するためのベンチマーク「BeSafe-Bench(BSB)」を提案する。本ベンチマークは、Web、モバイル、具現化型VLM、具現化型VLAという4つの代表的な領域を網羅している。機能的環境を用いて、9カテゴリの安全性上重要なリスクをタスクに付加することで多様な指示空間を構築し、ルールベースのチェックとLLM-as-a-judgeによる推論を組み合わせたハイブリッド評価フレームワークを採用し、実環境への影響を評価する。13の主要なエージェントを対象とした評価により、懸念すべき傾向が明らかとなった。最も性能の高いエージェントであっても、安全性制約を完全に遵守しながらタスクを完了するのは40%未満であり、高いタスク性能はしばしば深刻な安全性違反と併存している。これらの知見は、実世界へのエージェントシステムの展開に先立ち、安全性アライメントの改善が緊急に必要であることを浮き彫りにする。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています