HyperAI超神经

AprielGuard 是一种专为现代大语言模型（LLM）系统设计的80亿参数安全与对抗鲁棒性防护模型，旨在应对日益复杂的AI安全威胁。随着LLM演变为具备多步推理、调用外部工具、记忆管理与代码执行能力的智能体系统，传统安全机制已难以应对如多轮越狱攻击、提示注入、记忆污染、工具滥用等新型风险。 AprielGuard 通过统一的模型架构和涵盖16类安全风险的分类体系，实现对内容安全与对抗攻击的全面检测。其安全分类包括：毒性内容、歧视性表述、成人内容、虚假信息传播、自残诱导、非法活动、隐私侵犯、安全威胁、诽谤、欺诈、操纵行为、违法交易、影响操作及个人财产侵害等。同时，模型能识别包括角色扮演、世界构建、说服性语言、风格化提示在内的多种复杂对抗性攻击模式。该模型支持三种输入格式：独立提示、多轮对话和智能体工作流（含工具调用、推理轨迹、记忆状态等），并提供推理与非推理两种模式。推理模式可生成可解释的分类依据，适用于高安全要求场景；非推理模式则保障低延迟，适合生产环境。训练数据全部为合成生成，覆盖高阶攻击场景。研究团队利用Mixtral-8x7B和内部未受控模型生成高风险内容，通过高温度采样提升输出多样性，并结合NVIDIA NeMo Curator和SyGra框架构建大规模、多轮、演进式攻击对话数据。为增强鲁棒性，数据还经过字符噪声、拼写错误、Leet语言替换、语义改写和句法重排等增强处理。针对智能体工作流，系统性地构建了包含提示、推理、工具调用、记忆状态等多环节的攻击场景，实现对真实复杂交互的高保真模拟。评估结果显示，AprielGuard在多个公开安全与对抗基准上表现优异，如Aegis-AI、HarmBench、Gandalf、WildGuard等，F1分数普遍超过0.9，误报率（FPR）低至0.01。在长达32,000 token的长上下文任务中，模型能有效识别“针尖藏于草堆”类隐蔽风险，具备出色的长程依赖跟踪能力。此外，模型在八种非英语语言（法语、德语、日语、荷兰语、西班牙语、巴西葡语、意大利语、加拿大法语）中也展现出良好泛化能力，验证了其多语言适用性。但研究也指出其局限：在非英语环境需进一步校准；对高度专业领域（如医疗、法律）理解能力有限；推理模式存在分类不一致问题；启用推理会带来延迟与算力开销。 AprielGuard 作为统一的安全防护框架，为智能体系统提供可扩展、高覆盖、易部署的保障能力，是迈向可信AI的重要一步。其设计定位为安全评估与风险检测工具，不建议在未按规范使用时进行其他用途。

相关链接

相关链接

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

Command Palette

AprielGuard：守护大模型安全的新一代对抗鲁棒性防护机制

相关链接

Command Palette

AprielGuard：守护大模型安全的新一代对抗鲁棒性防护机制

相关链接

Command Palette

AprielGuard：守护大模型安全的新一代对抗鲁棒性防护机制

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答