Command Palette

Search for a command to run...

한 달 전

무감지한 대규모 언어 모델에 대한 제거 공격

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

무감지한 대규모 언어 모델에 대한 제거 공격

초록

시각 모달리티에 대한 제임브레이킹 공격은 일반적으로 인지되지 않는 적대적 변형(adversarial perturbations)에 의존하는 반면, 텍스트 모달리티에 대한 공격은 보통 시각적으로 확인 가능한 수정(예: 의미 없는 접미사)이 필요하다고 가정된다. 본 논문에서는 '변화 선택자(variation selectors)'라 불리는 일종의 유니코드 문자를 활용한 인지되지 않는 제임브레이킹 기법을 제안한다. 악의적인 질문에 보이지 않는 변화 선택자를 추가함으로써, 공격 프롬프트는 화면상에서 원래의 악의적인 질문과 완전히 시각적으로 동일하게 보이지만, 토큰화 과정에서는 '은밀히' 변경된다. 이러한 적대적 접미사를 생성하여 해로운 응답을 유도하기 위해, 탐색 체인(chain-of-search) 파이프라인을 제안한다. 실험 결과, 제안한 인지되지 않는 제임브레이킹 기법은 네 개의 정렬된 대규모 언어 모델(Large Language Models, LLMs)에 대해 높은 공격 성공률을 달성하며, 시각적으로 확인 가능한 수정 없이도 프롬프트 삽입 공격에까지 일반화됨을 확인하였다. 본 연구의 코드는 https://github.com/sail-sg/imperceptible-jailbreaks 에서 공개되어 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
무감지한 대규모 언어 모델에 대한 제거 공격 | 연구 논문 | HyperAI초신경