NVIDIA, AI 안전 요리법으로 자율 AI 시스템 보호
NVIDIA의 AI 안전 레시피로 에이전트형 AI 시스템 보호하기 대규모 언어 모델(Large Language Models, LLMs)이 자율적인 행동, 도구 사용, 그리고 추론을 수행할 수 있는 더 많은 에이전트형 시스템을 구동하면서 기업들은 이러한 시스템의 유연성과 낮은 추론 비용에 매력을 느끼고 있습니다. 그러나 이 자율성이 증가함에 따라 목표 일치성 부족, 프롬프트 주입 공격, 예기치 않은 행동, 그리고 감독 부재 등의 위험도 함께 증가하고 있어, 강력한 안전 조치를 도입하는 것이 필수적입니다. 또한 분절된 위험 관리와 동적인 규제 변화는 책임을 더욱 증가시킵니다. 신뢰성 문제는 환각, 프롬프트 주입, 데이터 유출, 그리고 모델의 부적절한 응답 등으로 인해 조직의 보안, 프라이버시, 신뢰, 규정 준수 목표를 훼손할 수 있으며, 이러한 요인들이 오픈 모델을 기업 AI 에이전트에 적용하는 것을 가로막고 있습니다. 이 글에서는 NVIDIA의 AI 안전 레시피를 소개합니다. 이 레시피는 NVIDIA 오픈 데이터셋, 평가 기법, 그리고 사후 훈련 레시피를 통해 AI 라이프사이클의 모든 단계를 강화합니다. 추론 시에는 NVIDIA NeMo Guardrails가 적대적 프롬프트로 인한 콘텐츠 모더레이션 우회, 프롬프트 주입 공격, 규정 위반 등을 해결하는 데 도움을 줍니다. 이 통합적인 접근 방식은 정책 관리자, 위험 소유자(CISOs, CIOs), 그리고 AI 연구자들이 안전 위협을 선제적으로 관리하고, 기업 정책을 시행하며, 책임감 있게 확장 가능한 에이전트형 AI 애플리케이션을 신뢰할 수 있게 합니다. 왜 에이전트형 워크플로에 안전 레시피가 필요한가? 고급 오픈 가중치 모델들은 항상 기업의 안전 정책과 일치하지 않을 수 있으며, 변화하는 환경은 전통적인 보호 장치인 콘텐츠 필터와 벤치마크보다 빠르게 새로운 위험을 초래합니다. 이로 인해 AI 시스템은 계속된, 정책에 맞는 모니터링 부족으로 인해 고급 프롬프트 주입 공격에 노출될 수 있습니다. NVIDIA의 에이전트형 AI 안전 레시피는 기업들이 신뢰할 수 있고 내부 정책과 외부 규제 요구사항에 맞춰 AI 시스템을 구축, 배포, 운영할 수 있는 포괄적인 기업 수준의 프레임워크를 제공합니다. 주요 이점 콘텐츠 안전성 개선: Nemotron Content Safety Dataset v2와 Llama Nemotron Safety Guard v2 모델, 그리고 WildGuardMix Dataset와 AllenAI WildGuard 모델을 통해 유해한 출력을 철저히 검사하여 콘텐츠 무결성을 강화하고 기업 정책과 일치성을 유지합니다. 상태 최적화 학습: NVIDIA NeMo 프레임워크 RL은 개발자가 지도 학습(Fine-Tuning)과 강화 학습(Reinforcement Learning)을 적용할 수 있는 최신 사후 훈련 기법을 제공합니다. 이는 투명하고 신뢰할 수 있는 AI 시스템을 구축하기 위한 오픈 라이선스 데이터셋을 포함합니다. 지속적인 안전 및 보호: garak LLM 취약점 스캐너를 사용하여 적대적 프롬프트와 탈옥 시도에 대비한 로버스트성을 확인하고, 시스템의 탄력성을 테스트합니다. 추론 시간 안전성: NeMo Guardrails와 함께 garak 평가 및 사후 훈련에서 얻은 인사이트를 활용하여 실시간으로 프로그래밍 가능한 안전성을 제공합니다. 빌드, 배포, 실행 시 안전성 적용하기 빌드 단계에서는 모델 평가와 일치성이 중요한 단계입니다. 이는 모델의 출력이 기업 특정 목적, 보안, 신뢰, 사용자의 프라이버시 기대, 그리고 규제 준수 표준과 일치하는지 확인하기 위함입니다. NVIDIA는 Nemotron Content Safety Dataset v2, Llama Nemotron Safety Guard v2, WildGuardMix Dataset, AllenAI WildGuard, garak LLM 취약점 스캐너 등의 평가 도구를 제공합니다. 사후 훈련 단계에서는 모델의 안전성과 보안 보고서를 철저히 검토하여 기업 특정 정책에 부합하고 요구되는 표준을 준수하는지 확인합니다. 또한 작업별 정확성 재평가가 이 단계에서 중요합니다. 모든 평가가 사업과 안전 임계값을 충족하면 모델은 배포에 적합하다고 간주됩니다. 이어서 LLM NIM 마이크로서비스를 사용하여 신뢰할 수 있는 모델을 여러 환경에서 대규모로 추론에 사용합니다. 실행 단계에서는 사후 훈련 후에도 위험이 완전히 사라지지 않기 때문에 지속적인 안전성이 필요합니다. garak 평가와 사후 훈련에서 얻은 인사이트는 NeMo Guardrails와 함께 추론 실행 시 안전성을 제공합니다. Llama 3.1 Nemoguard 8B Content Safety NIM은 편향적이거나 독성적인 출력을 방지하며, Llama 3.1 Nemoguard 8B Topic Control NIM은 상호작용이 승인된 비즈니스 또는 규정 영역 내에 머물도록 합니다. Nemoguard Jailbreak Detect NIM는 모델 보호 장치를 우회하려는 악의적인 프롬프트 엔지니어링을 방어합니다. 업계 선도적인 모델 안전성 및 보안 벤치마크 달성 업계 선도적인 벤치마크는 기본 오픈 가중치 모델과 사후 훈련 안전 레시피를 적용한 모델 사이의 안전성 및 보안 차이를 강조합니다. 콘텐츠 안전성 평가는 Nemotron Content Safety Dataset v2 테스트 세트와 Nemotron Safety Guard v2 판정 모델, 외부 커뮤니티 벤치마크인 WildGuardTest 데이터셋과 WildGuard 판정 모델을 사용하여 이루어졌습니다. NVIDIA AI 안전 레시피를 사용하여 안전 데이터셋으로 평가한 결과 콘텐츠 안전성이 88%에서 94%로 6% 개선되었으며, 정확도 저하 없이 성능이 향상되었습니다. 이는 목표 행위와 일치하는 타겟 모델이나 유사한 모델로 응답을 생성하는 온-정책 안전 훈련을 통해 이루어졌습니다. 제품 보안성은 garak를 사용하여 탄력성 점수를 측정하여 평가되었습니다. 여기서 탄력성 점수는 모델이 평균 이상의 성능을 보이는 프로브의 비율로 계산됩니다. 사후 훈련 안전 레시피를 사용하여 보안성이 56%에서 63%로 7% 향상되었으며, 정확도 저하 없이 적대적 프롬프트, 탈옥 시도, 그리고 유해 콘텐츠 생성에 대한 보호를 강화하였습니다. NVIDIA의 AI 안전 레시피는 기업들이 개발부터 배포까지 오픈 모델을 신뢰할 수 있게 운영화할 수 있도록 지원합니다. 이는 기업 수준의 에이전트형 AI 시스템을 안전하게 채택하도록 돕습니다. 선도적인 사이버보안 및 AI 안전 회사들은 이러한 NVIDIA AI 안전 구성 요소를 제품과 솔루션에 통합하고 있습니다. Active Fence는 기업들이 실시간 가드레일을 사용하여 에이전트를 안전하게 배포할 수 있도록 지원하여 더 안전한 생성형 AI 상호작용을 보장합니다. Cisco AI Defense는 NeMo와 연동하여 알고리즘적 레드팀 테스트를 통해 모델 취약점을 평가하고, 런타임 애플리케이션을 위한 보완적인 안전, 보안, 프라이버시 가드레일을 제공합니다. CrowdStrike Falcon Cloud Security는 NeMo 훈련 라이프사이클과 협력하여 런타임에서 지속되는 프롬프트 모니터링과 위협 인텔리전스 데이터를 활용하여 모델을 더욱 개선할 수 있도록 합니다. Trend Micro는 NeMo 모델 개발 파이프라인에 통합하여 기업 환경에서 신뢰성과 보안성을 확보하면서 안전 메커니즘이 확장될 수 있도록 합니다. NVIDIA AI 안전 레시피 시작하기 에이전트형 AI 시스템의 안전성을 개선하기 위한 NVIDIA의 AI 안전 레시피는 초기부터 오픈 모델을 평가하고 일치성을 맞추는 구조화된 참조 자료를 제공합니다. 이 레시피는 Jupyter 노트북 형태로 다운로드하거나, NVIDIA Brev를 사용하여 클라우드에서 배포할 수 있습니다. 관련 자료는 build.nvidia.com에서 확인할 수 있습니다. 업계의 평가 NVIDIA AI 안전 레시피는 기업들이 더 안전하고 신뢰할 수 있는 AI 시스템을 구축하고 운영할 수 있도록 지원하는 효과적인 도구로 평가되고 있습니다. 다양한 기업들이 이 레시피를 활용하여 AI 시스템의 보안성을 크게 향상시키고 있으며, 기업 수준의 AI 채택을 촉진하고 있습니다. 특히, 사이버보안 및 AI 안전 회사들이 이 레시피를 자신의 제품과 솔루션에 통합하고 있어, 전체적인 산업 발전에 큰 기여를 하고 있습니다.