HyperAI超神经
Back to Headlines

NVIDIA推出全面AI安全方案,守护自主系统免受新兴威胁

2 days ago

随着大型语言模型(LLMs)越来越多地驱动能够自主行动、使用工具和进行推理的代理系统,企业被这些系统的灵活性和低推理成本所吸引。然而,这种不断增长的自主性也带来了新的风险,包括目标不一致、提示注入、意料之外的行为以及减少的人类监督,因此引入强大的安全措施显得尤为重要。 此外,分散的风险姿态和动态的法规变化增加了企业的法律责任。信任问题如幻觉、提示注入、数据泄露以及冒犯性的模型响应也可能损害组织的安全性、隐私、信任和合规目标。这些问题共同阻碍了开放模型在企业AI代理中的应用。 为此,NVIDIA推出了一套全面的AI安全方案,旨在通过NVIDIA开放数据集、评估技术和训练后安全配方,在AI生命周期的每个阶段加强保护。这些措施有助于政策经理、首席信息安全官(CISOs)和首席信息官(CIOs)及AI研究人员积极应对安全威胁,执行企业政策,负责任地扩展代理AI应用。 先进的开放权重模型并不总是与企业的安全政策相一致,而不断变化的环境带来的风险可能会超过传统保障措施(如内容过滤和基准测试)的能力。这可能导致AI系统在面对高级提示注入攻击时处于无防护状态,缺乏持续、与政策相关的监测。 NVIDIA的代理AI安全方案为企业提供了一个全面的框架,帮助企业构建、部署和运营与内部政策和外部监管需求一致的可信AI系统。该方案的关键优势在于: 构建阶段:模型评估和对齐至关重要,NVIDIA提供了多种评估工具,包括NVIDIA NeMo框架模型评估和内容审核模型。使用Nemotron Content Safety Dataset v2 和 Llama Nemotron Safety Guard v2 模型以及WildGuardMix 数据集和AllenAI WildGuard模型严格筛选有害输出,确保内容完整性和与企业政策的一致性。此外,garak LLM漏洞扫描器用于探测产品安全漏洞,确保系统在面对对抗性提示和越狱尝试时具有强大的抵抗力,验证系统弹性。 部署阶段:模型的安全性和合规性经过全面审查,生成详细的报告,确保符合企业特定的要求和标准。重新评估任务特定的准确性也是这一阶段的重要环节。在确认所有评估指标都达到业务和安全阈值后,该模型被视为可信,可以部署用于推理。 运行阶段:即使经过训练后的模型,实际应用中仍然存在残余风险。结合garak评估和训练后所得的见解,NVIDIA NeMo Guardrails提供持续的、可编程的安全保护。Llama 3.1 Nemoguard 8B Content Safety NIM防止偏见或有毒输出,Llama 3.1 Nemoguard 8B Topic Control NIM确保交互内容在批准的企业或合规领域内,而Nemoguard Jailbreak Detect NIM则帮助防御恶意提示工程设计。 通过这套安全方案,NVIDIA将内容安全性能从88%提升至94%,提升了6个百分点,而产品安全性从56%提升至63%,提高了7个百分点,且这些改进都没有导致模型准确性的下降。

Related Links