NVIDIA stellt umfassendes Framework für die Sicherheit von autonomen KI-Systemen vor.
Sicherheitsrezept für agentenähnliche KI-Systeme mit NVIDIA Mit der zunehmenden Verwendung von großen Sprachmodellen (LLMs) zur Ansteuerung von agentenähnlichen Systemen, die autonome Aktionen, Werkzeuganwendungen und Schlussfolgerungen durchführen können, sind Unternehmen von deren Flexibilität und geringen Inferenzkosten angezogen. Diese wachsende Autonomie erhöht jedoch auch die Risiken, wie Zielmissvergnügungen, prompt-basierte Angriffe, unerwünschtes Verhalten und reduzierte menschliche Überwachung. Dies macht es notwendig, robuste Sicherheitsmaßnahmen zu integrieren. Zusätzlich führen fragmentierte Risikoprofile und sich verändernde regulatorische Anforderungen zu steigender Haftungsgefahr. Vertrauensfragen wie Halluzinationen, prompt-basierte Angriffe, Datenverluste und beleidigende Antworten können die Sicherheit, Datenschutz, Vertrauenswürdigkeit und Compliance-Ziele eines Unternehmens untergraben. Diese Faktoren erschweren die Nutzung offener Modelle für die Ansteuerung von Unternehmens-KI-Agenten. Dieser Beitrag stellt das NVIDIA KI-Sicherheitsrezept vor, das den gesamten Lebenszyklus der KI durch offene Datensätze, Evaluierungsmethoden und Post-Training-Rezepte stärkt. NVIDIA NeMo Guardrails helfen bei der Inferenzzeit, neue Risiken wie feindselige Prompts, um Inhaltsmoderation zu umgehen, prompt-basierte Angriffe und Compliance-Verstöße zu adressieren. Dieser umfassende Ansatz befähigt Policymaker, Risiko-Verantwortliche wie CISOs und CIOs sowie KI-Forscher, Sicherheitsbedrohungen aktiv zu managen, Unternehmensrichtlinien durchzusetzen und verantwortungsbewusst skalierte agentenähnliche KI-Anwendungen sicherzustellen. Warum benötigen agentenähnliche Workflows ein Sicherheitsrezept? Fortgeschrittene offene Modellgewichte sind nicht immer mit den Sicherheitsrichtlinien eines Unternehmens ausgerichtet, und sich verändernde Umgebungen erzeugen Risiken, die traditionelle Schutzmechanismen wie Inhaltsfilter und Benchmarks überfordern können. Dies kann KI-Systeme anfällig für fortgeschrittene prompt-basierte Angriffe machen, da kontinuierliche, richtlinienbasierte Überwachung fehlt. Das KI-Sicherheitsrezept von NVIDIA bietet einen umfassenden, unternehmensinternen Rahmen, der Organisationen dazu befähigt, KI-Systeme aufzubauen, bereitzustellen und zu betreiben, die vertrauenswürdig und sowohl internen Richtlinien als auch externen regulatorischen Anforderungen gerecht werden. Haupteinsatzfelder: Während der Bauphase sind Modellbewertung und -ausrichtung entscheidende Schritte, um sicherzustellen, dass die Modellausgaben dem unternehmensspezifischen Zweck, der Sicherheit, dem Vertrauen, den Erwartungen der Nutzer an Datenschutz und den Compliance-Standards entsprechen. NVIDIA stellt eine Reihe von Bewertungswerkzeugen zur Verfügung, wie den NVIDIA NeMo Framework Modellbewertungen mit offenen Datensätzen und Moderationsmodelle. Der Nemotron Content Safety Dataset v2 zusammen mit dem Llama Nemotron Safety Guard v2-Modell und der WildGuardMix-Datensatz mit dem AllenAI WildGuard-Modell筛查有害输出,以增强内容完整性和与企业政策的对齐。此外,garak LLM漏洞扫描器用于检测产品安全漏洞,确保模型对对抗性提示和越狱尝试具有强大的抵抗力,并测试系统的弹性。 在构建阶段之后,会生成一份详尽的模型安全性和安全报告,确保其符合企业特定的政策并遵循所需标准。在这一阶段重新评估任务特定的准确性也是至关重要的。验证所有评估均达到业务和安全阈值后,该模型即可被视为可信赖的部署模型。接下来,使用LLM NIM微服务将此可信模型大规模地部署到多个环境中进行推理。 在现实世界中,威胁并不会随着模型训练的结束而消失;总会有残余风险。通过结合garak评估和Post-Training(模型训练后的再训练)结果,以及NeMo Guardrails提供的持续可编程安全性,在运行时推理期间提供了额外的安全保护。 Llama 3.1 Nemoguard 8B Content Safety NIM防止有偏见或有毒的输出,Llama 3.1 Nemoguard 8B Topic Control NIM确保互动保持在批准的业务或合规领域内,而Nemoguard Jailbreak Detect NIM帮助抵御旨在绕过模型保护机制的恶意提示工程。 实现领先的模型安全性和安全性基准 行业领先的基准测试突显了基础开放权重模型与通过安全Post-Training配方增强的相同模型之间的安全性和安全差距。 内容安全性的模型评估是通过使用Nemotron Content Safety Dataset v2测试集和Nemotron Safety Guard v2仲裁模型的组合,加上使用WildGuardTest数据集和WildGuard仲裁模型的外部社区基准测试完成的。 通过应用NVIDIA AI安全食谱和安全数据集,产品安全性从基础开放权重模型的88%提高到94%,内容安全性提高了6%,且没有可测量的准确度下降。这是通过On-Policy安全训练实现的,其中响应由目标模型或与其意图行为一致的密切相关模型生成。 产品安全性从基础开放权重模型的56%提高到63%,安全弹性提高了7%,同样没有可测量的准确度损失。这通过使用garak测量弹性分数来实现,弹性分数被定义为模型在平均性能以上的探针百分比。 NVIDIA AI安全食谱帮助企业从开发到部署自信地运营开放模型,实现保护机制的集成和企业级代理AI系统的负责任采用。领先的网络安全和AI安全公司正在将其产品和解决方案中整合这些NVIDIA AI安全构建模块。 Active Fence使企业能够安全地部署带有实时护栏的代理,确保更安全的生成式AI交互。 Cisco AI Defense与NeMo集成,使用算法红队评估模型漏洞,并为运行时应用程序提供互补的安全、安全性和隐私护栏。 CrowdStrike Falcon Cloud Security与NeMo培训生命周期合作,允许客户将其在运行时模型中的持续提示监控和威胁情报数据纳入进一步的模型Post-Training。 Trend Micro正在整合NeMo模型开发管道,以确保模型安全机制可靠且安全地扩展到企业环境中。 开始改进您的AI系统安全性 NVIDIA的代理AI安全食谱提供了一个结构化的参考框架,旨在早期评估和对齐开放模型,从而提高安全性、安全性和合规的代理工作流程。该食谱可以作为Jupyter笔记本下载,也可以使用NVIDIA Brev从build.nvidia.com在云上启动。 致谢 感谢为本文做出贡献的所有人,包括Yoshi Suhara, Prasoon Varshney, Ameya Sunil Mahabaleshwarkar, Zijia Chen, Makesh Narasimhan Sreedhar, Aishwarya Padmakumar, Pinky Xu, Negar Habibi, Joey Conway, Christopher Parisien, Erick Galinkin, Akshay Hazare, Jie Lou, Vinita Sharma, Vinay Raman, Shaona Ghosh, Katherine Luna und Leon Derczynski. Industrie-Expertenbewertungen und Unternehmensprofile Das NVIDIA KI-Sicherheitsrezept wird von führenden Unternehmen in der Cybersicherheit und KI-Sicherheit hoch angesehen. Active Fence, Cisco AI Defense, CrowdStrike Falcon Cloud Security und Trend Micro haben alle ihre Produkte und Lösungen mit diesem Rezept integriert, um Sicherheits- und Compliance-Standard zu erfüllen. NVIDIA ist bekannt für seine fortschrittliche Technologie und langjährige Erfahrung in der KI-Entwicklung, was es in der Lage macht, innovative und zugleich sichere Lösungen anzubieten. Die Integration dieser Sicherheitsbausteine in bestehende Workflows hat den Potenzial, die Nutzung von KI-Systemen in Unternehmen signifikant zu verbessern und zu schützen.