Command Palette
Search for a command to run...
BeSafe-Bench:揭示功能化环境中具身智能体的行为安全风险
BeSafe-Bench:揭示功能化环境中具身智能体的行为安全风险
Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei
摘要
大型多模态模型(LMMs)的快速发展使智能体(agents)能够执行复杂的数字与物理任务,然而将其部署为自主决策者却引入了显著的非预期行为安全风险。当前,缺乏全面的安全基准已成为主要瓶颈,因为现有评估多依赖于低保真环境、模拟 API 或范围狭窄的任务。为填补这一空白,我们提出了 BeSafe-Bench(BSB),这是一个面向功能环境中具身智能体(situated agents)行为安全风险暴露的基准测试平台,涵盖四个代表性领域:Web、Mobile、Embodied VLM 和 Embodied VLA。借助真实功能环境,我们通过引入九类安全关键风险来增强任务多样性,从而构建出丰富的指令空间;同时采用混合评估框架,结合基于规则的检测与 LLM-as-a-judge 推理机制,以评估智能体在真实环境中的实际影响。对 13 个主流智能体的评估揭示了一个令人担忧的趋势:即便是表现最佳的智能体,在完全遵守安全约束的前提下,其任务完成率也低于 40%;且任务性能越强,往往伴随越严重的安全违规。这些发现凸显了在将智能体系统部署至现实场景之前,亟需进一步提升其安全对齐能力。