HyperAIHyperAI

Command Palette

Search for a command to run...

AgentDoG:面向AI Agent安全与可信的诊断防护框架

Abstract

人工智能代理的兴起带来了由自主工具使用与环境交互所引发的复杂安全与安全挑战。当前的防护机制模型普遍缺乏对代理风险的认知能力,且在风险诊断过程中缺乏透明性。为构建能够覆盖多种复杂风险行为的代理防护体系,我们首先提出了一种统一的三维分类体系,从风险来源(何处)、失效模式(如何)和后果(何果)三个正交维度对代理风险进行系统化分类。基于这一结构化、分层化的分类体系,我们进一步提出了一个细粒度的代理安全基准测试(ATBench),并构建了代理安全与安全诊断框架——AgentDoG(Agent Diagnostic Guardrail)。AgentDoG能够对代理行为轨迹实现细粒度、上下文感知的持续监控。尤为重要的是,AgentDoG不仅能诊断不安全行为的根本原因,还可识别表面看似安全但逻辑不合理的行为,提供可追溯性与透明性,超越传统的二元标签判断,从而有效支持代理系统的对齐优化。AgentDoG已推出三种不同规模的模型变体(4B、7B 和 8B 参数量),涵盖 Qwen 与 Llama 模型系列。大量实验结果表明,AgentDoG 在多样化、复杂的交互场景中,均实现了当前最先进的代理安全调控性能。所有模型与数据集均已开源发布。

一句话总结

来自上海人工智能实验室的研究人员提出了 AgentDoG,这是一种具备三维风险分类法和细粒度基准测试(ATBench)的诊断型安全护栏框架,可实现对 Qwen 和 Llama 系列模型中 AI 代理的根因诊断与透明化安全监控,在复杂交互场景中表现优于先前方法。

主要贡献

  • 提出统一的三维代理风险分类法——按来源、失效模式和后果分类——系统性解决传统内容审核之外的自主代理行为安全漏洞。
  • 开发了 AgentDoG 诊断型安全护栏框架,提供细粒度、上下文感知的监控及对不安全或不合理代理行为的根因诊断,通过轨迹溯源实现透明对齐。
  • 在 ATBench 和其他代理基准测试中展示出最先进的性能,公开发布 Qwen 和 Llama 系列的 4B/7B/8B 模型,支持可复现研究和社区对代理安全性的评估。

引言

作者利用自主 AI 代理(通过工具和环境交互执行复杂多步骤任务)的兴起,应对当前安全护栏无法处理的新兴安全挑战。现有模型如 LlamaGuard3 或 ShieldGemma 侧重内容过滤,缺乏对恶意工具使用或上下文依赖性失效等代理风险的认知,仅提供二元安全/不安全标签,掩盖了根本原因。为解决此问题,他们引入三维分类法(风险来源、失效模式、现实危害)系统性分类代理风险,随后构建细粒度安全基准测试 ATBench 与诊断型安全护栏 AgentDoG,该护栏监控代理轨迹并解释不安全或不合理行为发生的原因。AgentDoG 的变体已在 Qwen 和 Llama 系列中提供 4B、7B 和 8B 尺寸,实现最先进的安全审核性能,同时支持透明、富含溯源信息的诊断以提升代理对齐性。

数据集

作者使用名为 AgentDoG 的合成数据集,用于训练和评估在工具增强环境中运行的 AI 代理的安全护栏。数据组成、处理和应用方式如下:

  • 数据集组成与来源

    • 基于超过 10 万条多轮代理轨迹构建,通过结构化安全分类法和从 ToolBench 与 ToolAlpaca 衍生的大规模工具库(约 10,000 个工具)合成。
    • 工具涵盖信息检索、计算、内容处理和 API 调用——规模是先前基准的 40 倍。
    • 每条轨迹包含用户、助手和环境/工具轮次,旨在反映风险条件下真实世界的代理行为。
  • 关键子集与过滤规则

    • 训练集:合成后,轨迹经历两层质量控制:
      1. 结构验证器检查轮次顺序、工具调用有效性、步骤连贯性和可读性。
      2. LLM 判断器验证轨迹内容与分配的安全标签在三个维度(风险来源、失效模式、风险后果)的一致性。
      • 仅 52% 的生成轨迹通过质量控制。
    • ATBench(评估集):500 条保留轨迹(250 条安全,250 条不安全),工具与训练数据无重叠(使用 2,292 个未见工具)。
      • 平均每条轨迹 8.97 轮,涵盖 1,575 个独特工具。
      • 通过多模型投票(Qwen、GPT-5.2、Gemini 3 Pro、DeepSeek-V3.2)+ 人工裁决模糊案例进行标注。
      • 分为简单集(273 条,模型一致裁决)和困难集(227 条,模型裁决冲突)以进行分层评估。
  • 数据在训练与评估中的使用方式

    • 训练数据采用混合加权,确保覆盖 8 个风险来源、14 种失效模式和 10 个危害类别的平衡性。
    • 模型训练目标为预测二元安全标签(安全/不安全)及不安全案例的细粒度分类标签。
    • ATBench 专用于评估,测量整体安全分类(准确率、精确率、召回率、F1)和细粒度诊断准确率(风险来源、失效模式、危害类型)。
  • 处理与元数据细节

    • 轨迹经过结构完整性、语义连贯性和标签对齐过滤。
    • 对 ATBench,每条轨迹在标注前评分(1–5),仅保留评分 ≥3 的轨迹。
    • 元数据包含每条不安全轨迹的分类标签,通过四个 LLM 的多数投票分配,平票时由人工复核。
    • 不进行裁剪——保留完整轨迹以评估长视野决策链。
    • 二元安全裁决包括代理成功拒绝或缓解风险的情况,而不仅限于危害发生时。

方法

作者提出一种用于自主代理轨迹级安全诊断的框架,超越传统终点安全评估,可在代理执行的任何阶段识别不安全行为。该方法核心是三维安全分类法,沿三个轴对风险进行分类:风险来源、失效模式和现实危害。如图所示,此分类法为数据合成和模型评估提供了结构化基础。风险来源维度识别风险起源,例如恶意用户输入或损坏的工具反馈。失效模式维度描述代理如何失败,包括行为失败(如规划错误)或输出内容失败(如生成有害内容)。现实危害维度量化潜在后果,范围从隐私侵犯到人身伤害。这一全面的分类法支持对代理行为进行系统化和细粒度分析。

该框架旨在支持两项主要任务:轨迹级安全评估和细粒度风险诊断。对于轨迹级评估,模型需判断给定代理轨迹中任何步骤是否包含不安全行为,输出二元标签。对于细粒度诊断,模型需预测风险来源、失效模式和现实危害的三元组标签。如图所示,这些任务的提示模板结构化引导模型进行分析。轨迹级评估提示包含任务定义、代理轨迹和输出格式指令。细粒度诊断提示类似,但包含安全分类法作为参考以确保准确分类。模型被指示以特定格式输出结果,细粒度诊断需逐行输出预测标签。

为生成覆盖广泛风险场景的高质量训练数据,作者采用多代理流水线进行数据合成,如图所示。该流水线分三个阶段。第一阶段:规划,从分类法中采样风险配置并构建任务计划,包括连贯的多步骤任务、工具增强步骤序列和指定的风险注入点。第二阶段:轨迹合成,协调器驱动计划执行,生成用户查询、模拟工具交互并生成代理响应。在指定风险点,工具响应生成器注入恶意内容以使代理暴露于可控风险中。代理响应根据预期安全结果生成,要么检测并缓解威胁(安全轨迹),要么未能做到(不安全轨迹)。第三阶段:过滤,应用双层验证过程确保生成轨迹的质量。规则检查器验证工具调用的技术正确性,模型检查器评估代理行为的合理性、连贯性和事实可信度。此过程确保最终数据集仅包含高质量、真实的轨迹。

安全护栏模型的训练基于标准监督微调(SFT)。模型在配对安全标签的代理轨迹数据集上训练,目标是最小化负对数似然损失,鼓励模型预测给定轨迹的正确安全标签。作者微调多个大语言模型,包括 Qwen3-4B-Instruct、Qwen2.5-7B-Instruct 和 Llama3.1-8B-Instruct,学习率为 1e-5。此训练方法使模型能够分类轨迹为安全或不安全,并基于合成流水线生成的结构化数据执行细粒度风险诊断。

实验

  • AgentDoG 在轨迹级安全评估中表现优异,在 R-Judge 上达到 92.7% F1(超越 GPT-5.2 的 91.8%),在 ASSE-Safety 上达到 83.4% F1(优于 Gemini-3-Pro 的 78.6%),同时保持精确率/召回率平衡,优于保守型护栏模型。
  • 在 ATBench 的细粒度风险诊断中,AgentDoG-Qwen3-FG-4B 在风险来源准确率上达 82.0%,失效模式准确率 32.4%,现实危害准确率 58.4%,显著优于 Gemini-3-Pro(风险来源 36.8%)和 Qwen3-235B(现实危害 38.0%)等通用模型。
  • AgentDoG 的归因模块在对抗性案例中准确定位根因:识别简历筛选中的欺骗性提示注入、揭示讽刺性财务分析中对关键词的浅层依赖、指出模糊交易中的错误假设——在因果对齐方面优于基础模型。
  • AgentDoG 在现实场景中展示稳健的安全处理能力:成功检测并拒绝提示注入(安全案例),同时揭示间接注入触发目标漂移和未授权行为的失败链(不安全案例并标注风险分类法)。

结果显示,AgentDoG 在所有细粒度风险诊断指标上均取得最高性能,风险来源准确率 82.0%,现实危害准确率 58.4%,失效模式准确率 32.4%,优于所有基线模型。模型在识别特定风险来源和失效模式方面表现突出,尤其在风险来源分类中,以 24.8 个百分点显著超越次优模型 Qwen3-235B。

作者使用综合评估框架评估 AgentDoG 在多个基准测试中的轨迹级安全性和细粒度风险诊断性能。结果显示,AgentDoG 表现强劲,优于大多数专用护栏模型,与更大规模的通用模型保持竞争力,尤其在 R-Judge 和 ASSE-Safety 的 F1 分数上表现优异,同时在 ATBench 上展示出卓越的细粒度诊断准确率。

作者使用表格呈现评估中代理轨迹的风险来源、失效模式和现实危害分布分析。数据显示,不可靠/虚假信息和间接提示注入是最常见的风险来源,而功能性和机会性危害是最常见的现实后果,表明与信息完整性和系统级故障相关的安全问题普遍存在。

作者使用综合评估框架评估 AgentDoG 在轨迹级分类和细粒度风险诊断任务中的安全能力。结果显示,AgentDoG 表现强劲,优于大多数专用护栏模型,与更大规模的通用模型保持竞争力,尤其在细粒度风险诊断中表现出高准确率,能准确识别风险来源、失效模式和现实危害。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供