Command Palette
Search for a command to run...
Rishi Rajesh Shah Chen Henry Wu Shashwat Saxena Ziqian Zhong Alexander Robey Aditi Raghunathan

초록
최근 장문맥 언어 모델(LM)의 발전으로 인해 수백만 토큰에 이르는 입력이 가능해지며, 컴퓨터 사용 에이전트와 같은 복잡한 작업에 대한 능력이 확장되고 있다. 그러나 이러한 확장된 문맥이 초래하는 안전성 측면의 영향은 여전히 명확하지 않다. 이 격차를 메우기 위해 우리는 'NINJA'(Needle-in-haystack jailbreak attack의 약자)라는 새로운 방법을 제안한다. NINJA는 해로운 사용자 목표에 대해 모델이 생성한 무해한 콘텐츠를 추가함으로써, 정합성(align)된 언어 모델의 보안을 우회하는 기법이다. 본 연구의 핵심 관찰은 해로운 목표의 위치가 안전성에 중요한 영향을 미친다는 점이다. 표준 안전성 벤치마크인 HarmBench에서의 실험 결과, NINJA는 LLaMA, Qwen, Mistral, Gemini 등 최신 오픈소스 및 전용 모델을 포함한 다양한 모델에서 공격 성공률을 크게 증가시킴을 확인했다. 기존의 해킹 기법들과 달리, 본 방법은 자원 소모가 낮고, 타 모델로의 전이 가능하며, 탐지 가능성도 낮다. 더불어, NINJA가 계산 자원 최적화를 달성함을 보여주었다. 고정된 계산 자원 예산 하에서, 문맥 길이를 늘리는 것이 best-of-N 해킹 공격에서 시도 횟수를 늘리는 것보다 더 높은 성능을 발휘할 수 있음을 입증한 것이다. 이러한 결과는, 정교한 목표 위치 조정을 통해 설계된 무해한 장문맥 콘텐츠조차도 현대 언어 모델에 근본적인 취약성을 초래할 수 있음을 시사한다.