HyperAIHyperAI

Command Palette

Search for a command to run...

BeSafe-Bench:揭示功能化环境中具身智能体的行为安全风险

Yuxuan Li Yi Lin Peng Wang Shiming Liu Xuetao Wei

摘要

大型多模态模型(LMMs)的快速发展使智能体(agents)能够执行复杂的数字与物理任务,然而将其部署为自主决策者却引入了显著的非预期行为安全风险。当前,缺乏全面的安全基准已成为主要瓶颈,因为现有评估多依赖于低保真环境、模拟 API 或范围狭窄的任务。为填补这一空白,我们提出了 BeSafe-Bench(BSB),这是一个面向功能环境中具身智能体(situated agents)行为安全风险暴露的基准测试平台,涵盖四个代表性领域:Web、Mobile、Embodied VLM 和 Embodied VLA。借助真实功能环境,我们通过引入九类安全关键风险来增强任务多样性,从而构建出丰富的指令空间;同时采用混合评估框架,结合基于规则的检测与 LLM-as-a-judge 推理机制,以评估智能体在真实环境中的实际影响。对 13 个主流智能体的评估揭示了一个令人担忧的趋势:即便是表现最佳的智能体,在完全遵守安全约束的前提下,其任务完成率也低于 40%;且任务性能越强,往往伴随越严重的安全违规。这些发现凸显了在将智能体系统部署至现实场景之前,亟需进一步提升其安全对齐能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供