Command Palette
Search for a command to run...
체인 오브 써스 하이재킹
체인 오브 써스 하이재킹
Jianli Zhao Tingchen Fu Rylan Schaeffer Mrinank Sharma Fazl Barez
초록
대규모 추론 모델(LRMs)은 추론 시 계산량을 늘릴수록 더 높은 작업 성능을 달성하며, 이전 연구들은 이러한 확장된 추론이 거부 반응을 강화함으로써 안전성을 높일 수 있다고 제안해왔다. 그러나 우리는 반대의 결과를 발견했다. 동일한 추론 방식이 보호 장치를 회피하는 데 사용될 수 있다는 점이다. 본 연구에서는 추론 모델을 대상으로 한 '사고 흐름 해킹(Chain-of-Thought Hijacking)'이라는 절차를 제안한다. 이 공격은 해로운 요청에 긴, 무해한 퍼즐 풀이 추론 시퀀스를 첨가함으로써 작동한다. HarmBench 벤치마크에서, Gemini 2.5 Pro, GPT o4 mini, Grok 3 mini, Claude 4 Sonnet에 각각 99%, 94%, 100%, 94%의 공격 성공률(ASR)을 기록하며, 기존의 LRMs 대상 절차를 훨씬 뛰어넘는 성능을 보였다. 본 공격의 효과를 이해하기 위해 메커니즘 분석을 수행한 결과, 중간 레이어는 안전성 검사의 강도를 인코딩하는 반면, 후반 레이어는 검증 결과를 인코딩하는 것으로 확인되었다. 긴 무해한 사고 흐름(CoT)은 해로운 토큰에 대한 주의를 분산시킴으로써 이 두 가지 신호를 약화시킨다. 이러한 분석을 통해 식별된 주의 헤드를 대상으로 한 제거 실험은 거부 반응을 유의미하게 감소시키며, 이는 해당 헤드가 안전성 하위 네트워크 내에서 결정적 역할을 한다는 인과적 증거를 제공한다. 본 연구 결과는, 가장 해석 가능성이 높은 추론 형태인 명시적 사고 흐름(CoT)이 최종 답변 유도 신호와 결합될 경우 오히려 절차 공격의 벡터가 될 수 있음을 보여준다. 본 연구에서는 재현을 용이하게 하기 위해 공격 프롬프트, 출력 결과 및 평가 결정을 공개한다.