HyperAI

초록

대규모 추론 모델(LRMs)은 추론 시 계산량을 늘릴수록 더 높은 작업 성능을 달성하며, 이전 연구들은 이러한 확장된 추론이 거부 반응을 강화함으로써 안전성을 높일 수 있다고 제안해왔다. 그러나 우리는 반대의 결과를 발견했다. 동일한 추론 방식이 보호 장치를 회피하는 데 사용될 수 있다는 점이다. 본 연구에서는 추론 모델을 대상으로 한 '사고 흐름 해킹(Chain-of-Thought Hijacking)'이라는 절차를 제안한다. 이 공격은 해로운 요청에 긴, 무해한 퍼즐 풀이 추론 시퀀스를 첨가함으로써 작동한다. HarmBench 벤치마크에서, Gemini 2.5 Pro, GPT o4 mini, Grok 3 mini, Claude 4 Sonnet에 각각 99%, 94%, 100%, 94%의 공격 성공률(ASR)을 기록하며, 기존의 LRMs 대상 절차를 훨씬 뛰어넘는 성능을 보였다. 본 공격의 효과를 이해하기 위해 메커니즘 분석을 수행한 결과, 중간 레이어는 안전성 검사의 강도를 인코딩하는 반면, 후반 레이어는 검증 결과를 인코딩하는 것으로 확인되었다. 긴 무해한 사고 흐름(CoT)은 해로운 토큰에 대한 주의를 분산시킴으로써 이 두 가지 신호를 약화시킨다. 이러한 분석을 통해 식별된 주의 헤드를 대상으로 한 제거 실험은 거부 반응을 유의미하게 감소시키며, 이는 해당 헤드가 안전성 하위 네트워크 내에서 결정적 역할을 한다는 인과적 증거를 제공한다. 본 연구 결과는, 가장 해석 가능성이 높은 추론 형태인 명시적 사고 흐름(CoT)이 최종 답변 유도 신호와 결합될 경우 오히려 절차 공격의 벡터가 될 수 있음을 보여준다. 본 연구에서는 재현을 용이하게 하기 위해 공격 프롬프트, 출력 결과 및 평가 결정을 공개한다.

초록

Jianli Zhao Tingchen Fu Rylan Schaeffer Mrinank Sharma Fazl Barez

초록

AI로 AI 구축

HyperAI Newsletters

Jianli Zhao Tingchen Fu Rylan Schaeffer Mrinank Sharma Fazl Barez

초록

AI로 AI 구축

HyperAI Newsletters

Jianli Zhao Tingchen Fu Rylan Schaeffer Mrinank Sharma Fazl Barez

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

체인 오브 써스 하이재킹

Jianli Zhao Tingchen Fu Rylan Schaeffer Mrinank Sharma Fazl Barez

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

체인 오브 써스 하이재킹

Jianli Zhao Tingchen Fu Rylan Schaeffer Mrinank Sharma Fazl Barez

초록

AI로 AI 구축

HyperAI Newsletters

Command Palette

체인 오브 써스 하이재킹

Jianli Zhao Tingchen Fu Rylan Schaeffer Mrinank Sharma Fazl Barez

초록

AI로 AI 구축

HyperAI Newsletters