HyperAIHyperAI

Command Palette

Search for a command to run...

체인 오브 써스 하이재킹

Jianli Zhao Tingchen Fu Rylan Schaeffer Mrinank Sharma Fazl Barez

초록

대규모 추론 모델(LRMs)은 추론 시 계산량을 늘릴수록 더 높은 작업 성능을 달성하며, 이전 연구들은 이러한 확장된 추론이 거부 반응을 강화함으로써 안전성을 높일 수 있다고 제안해왔다. 그러나 우리는 반대의 결과를 발견했다. 동일한 추론 방식이 보호 장치를 회피하는 데 사용될 수 있다는 점이다. 본 연구에서는 추론 모델을 대상으로 한 '사고 흐름 해킹(Chain-of-Thought Hijacking)'이라는 절차를 제안한다. 이 공격은 해로운 요청에 긴, 무해한 퍼즐 풀이 추론 시퀀스를 첨가함으로써 작동한다. HarmBench 벤치마크에서, Gemini 2.5 Pro, GPT o4 mini, Grok 3 mini, Claude 4 Sonnet에 각각 99%, 94%, 100%, 94%의 공격 성공률(ASR)을 기록하며, 기존의 LRMs 대상 절차를 훨씬 뛰어넘는 성능을 보였다. 본 공격의 효과를 이해하기 위해 메커니즘 분석을 수행한 결과, 중간 레이어는 안전성 검사의 강도를 인코딩하는 반면, 후반 레이어는 검증 결과를 인코딩하는 것으로 확인되었다. 긴 무해한 사고 흐름(CoT)은 해로운 토큰에 대한 주의를 분산시킴으로써 이 두 가지 신호를 약화시킨다. 이러한 분석을 통해 식별된 주의 헤드를 대상으로 한 제거 실험은 거부 반응을 유의미하게 감소시키며, 이는 해당 헤드가 안전성 하위 네트워크 내에서 결정적 역할을 한다는 인과적 증거를 제공한다. 본 연구 결과는, 가장 해석 가능성이 높은 추론 형태인 명시적 사고 흐름(CoT)이 최종 답변 유도 신호와 결합될 경우 오히려 절차 공격의 벡터가 될 수 있음을 보여준다. 본 연구에서는 재현을 용이하게 하기 위해 공격 프롬프트, 출력 결과 및 평가 결정을 공개한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
체인 오브 써스 하이재킹 | 문서 | HyperAI초신경