1 天前

摘要

大型多模态模型（LMMs）的快速发展使智能体（agents）能够执行复杂的数字与物理任务，然而将其部署为自主决策者却引入了显著的非预期行为安全风险。当前，缺乏全面的安全基准已成为主要瓶颈，因为现有评估多依赖于低保真环境、模拟 API 或范围狭窄的任务。为填补这一空白，我们提出了 BeSafe-Bench（BSB），这是一个面向功能环境中具身智能体（situated agents）行为安全风险暴露的基准测试平台，涵盖四个代表性领域：Web、Mobile、Embodied VLM 和 Embodied VLA。借助真实功能环境，我们通过引入九类安全关键风险来增强任务多样性，从而构建出丰富的指令空间；同时采用混合评估框架，结合基于规则的检测与 LLM-as-a-judge 推理机制，以评估智能体在真实环境中的实际影响。对 13 个主流智能体的评估揭示了一个令人担忧的趋势：即便是表现最佳的智能体，在完全遵守安全约束的前提下，其任务完成率也低于 40%；且任务性能越强，往往伴随越严重的安全违规。这些发现凸显了在将智能体系统部署至现实场景之前，亟需进一步提升其安全对齐能力。

源 PDF