HyperAI초신경
12일 전

마스크 뒤의 악마: 확산 LLM의 새로운 안전 취약성

Zichen Wen; Jiashu Qu; Dongrui Liu; Zhiyuan Liu; Ruixi Wu; Yicun Yang; Xiangqi Jin; Haoyun Xu; Xuyang Liu; Weijia Li; Chaochao Lu; Jing Shao; Conghui He; Linfeng Zhang
마스크 뒤의 악마: 확산 LLM의 새로운 안전 취약성
초록

확산 기반 대형 언어 모델(dLLM)은 최근 자동 회귀 LLM의 강력한 대안으로 부각되며, 병렬 디코딩과 양방향 모델링을 통해 더 빠른 추론과 더 큰 상호작용성을 제공합니다. 그러나 코드 생성 및 텍스트 채우기에서 우수한 성능을 보이는에도 불구하고, 우리는 근본적인 안전성 문제를 발견하였습니다: 기존의 정렬 메커니즘이 문맥 인식, 마스킹된 입력에 대한 적대적 프롬프트로부터 dLLM을 보호하지 못하여 새로운 취약점을 노출시키는 것입니다. 이에 대해 우리는 DIJA를 제시합니다. DIJA는 dLLM의 고유한 안전성 약점을 이용하는 첫 번째 체계적인 연구 및 탈옥 공격 프레임워크입니다. 특히, 제안된 DIJA는 dLLM의 텍스트 생성 메커니즘, 즉 양방향 모델링과 병렬 디코딩을 활용하여 적대적 중첩 마스크-텍스트 프롬프트를 구성합니다. 양방향 모델링은 유해한 경우에도 마스킹된 구간에 대해 문맥적으로 일관된 출력을 생성하도록 모델을 유도하며, 병렬 디코딩은 안전하지 않은 내용에 대한 동적 필터링 및 거부 샘플링을 제한합니다. 이로 인해 표준 정렬 메커니즘이 실패하여 정렬 조정된 dLLM에서도 유해한 완성이 가능하게 됩니다. 직접적으로 유해한 행동이나 안전하지 않은 지침이 프롬프트에 노출되더라도 말입니다. 포괄적인 실험을 통해 우리는 DIJA가 기존 탈옥 방법보다 크게 우월함을 입증하였으며, Dream-Instruct에서 최대 100%의 키워드 기반 ASR(Attack Success Rate)를 달성하였습니다. 이는 JailbreakBench에서 평가자 기반 ASR에서 최강의 이전 베이스라인인 ReNeLLM보다 최대 78.5% 개선되었으며, StrongREJECT 점수에서는 37.7점 개선되었습니다. 또한 우리의 방법은 탈옥 프롬프트에서 유해한 내용을 다시 작성하거나 숨기는 것이 필요하지 않습니다. 우리의 결과는 이러한 신규 언어 모델 클래스의 안전성 정렬에 대한 재고찰이 시급하다는 점을 강조합니다. 코드는 https://github.com/ZichenWen1/DIJA에서 확인할 수 있습니다.