珞珈대 학생, 다국어 대형 언어 모델 후문 공격 연구 논문 발표
최근, 우한대학교 국가사이버보안학원의 2023년도 석사과정 학생인 엄난이 제1저자로 참여한 논문이 2025년 제34회 USENIX 보안 심포지엄(The 34th USENIX Security Symposium 2025)에 채택되었다. 이 논문의 제목은 "EmbedX: Embedding-Based Cross-Trigger Backdoor Attack Against Large Language Models" (EmbedX: 대형 언어 모델에 대한 임베딩 기반 크로스 트리거 백도어 공격)이다. 지도교수는 국가사이버보안학원 부연구원 리위칭(리우청)과 교수 천징(전정), 그리고 부교수 허쿤(허곤)이다. 화중과학기술대학 부교수 왕시옹(왕웅)과 홍콩과학기술대학 교수 리보(리파)가 공동 연구에 참여하였다. 대형 언어 모델(LLMs)은 GPT-4, LLaMA 등과 같이 다양한 자연어 처리 작업에서 뛰어난 성능을 보여, 질문 응답, 번역, 텍스트 생성 등에 널리 사용되고 있다. 그러나 연구에 따르면, LLMs는 특히 백도어 공격과 같은 심각한 보안 위험에 노출되어 있다. 공격자는 훈련 과정에서 특정 트리거 단어를 심어두어, 모델이 특정 입력을 받았을 때 악의적 또는 오류가 있는 응답을 생성하도록 할 수 있다. 기존 백도어 방법은 이산적인 트리거 단어를 사용하여 자동 최적화를 지원하지 않으며, 특정 작업에 최적화된 트리거를 찾는 데 어려움이 있다. 또한, 대부분의 백도어 공격은 단일 트리거 단어에 기반하므로 다양한 사용자의 언어 습관에 맞추기 어렵고, 문화와 언어가 다른 환경에서는 공격 효과가 크게 감소한다. 이를 해결하기 위해 새로운 모델을 훈련하고 백도어를 재삽입해야 하는데, 이는 효율성이 낮고 위장이 잘 되지 않는다는 문제가 있다. 엄난 학생은 이러한 문제를 해결하기 위해 EmbedX라는 임베딩 공간 기반의 크로스 트리거 백도어 공격 프레임워크를 제안하였다. EmbedX는 이산적인 트리거 단어에 의존하지 않고, 연속적인 임베딩 벡터를 최적화하여 '소프트 트리거'를 구축한다. 이 소프트 트리거는 특정 백도어 시나리오에 따라 동적으로 세분화 및 맞춤화될 수 있으며, 다양한 언어 스타일의 단어들을 토큰으로 사용하여 임베딩 의미상 소프트 트리거와 일치시키는 방식으로 동일한 백도어 응답을 유발할 수 있다. 따라서 트리거를 변경할 때마다 모델을 재훈련할 필요 없이, 특정 토큰의 임베딩 의미를 미리 정의된 임베딩 벡터와 일치시키기만 하면 백도어를 활성화할 수 있다. 공격의 위장을 강화하기 위해, EmbedX는 빈도 영역과 그래디언트 공간의 이중 제약을 도입하여 중독 샘플이 모델의 잠재 공간에서 일반 샘플에 더 가깝도록 만들어준다. 실험은 LLaMA, BLOOM, Gemma 등의 주요 오픈소스 대형 언어 모델과 6개 언어 환경에서 수행되었으며, 감정 분석, 증오 발언 검출, 명령 생성 등의 작업을 포함하였다. 결과에 따르면, EmbedX는 공격 성공률, 시간 효율성, 위장성 측면에서 기존 방법을 크게 능가하였다. 재훈련 없이도 빠른 다중 트리거 전환이 가능하며, 평균 0.53초 만에 공격이 성공하였고, 공격 성공률은 거의 100%에 가까웠다. 모델의 정확도는 3.2% 향상되었다. 이 연구는 기존 방어 메커니즘이 의미 측면에서 존재할 수 있는 사각지대를 드러내었으며, 앞으로 더욱 효율적이고 위장성이 뛰어난 대형 언어 모델 백도어 검출 기술의 개발에 이론적 기반을 제공하였다. USENIX 보안 심포지엄은 1990년 처음 개최되어 30년 이상의 역사를 가진 국제적 권위 있는 학술 회의이며, IEEE S&P, ACM CCS, NDSS와 함께 정보보안 분야의 4대 국제 학술 회의로 알려져 있다. 중국컴퓨터학회(CCF)에서 추천하는 A등급 회의에 해당된다. 이번 USENIX Security는 8월 13일부터 15일까지 시애틀에서 열릴 예정이다. 엄난 학생의 연구는 LLMs의 보안 위험을 효과적으로 제시하였으며, 이는 사이버보안 분야에서 중요한 진전을 가져올 것으로 기대된다. 이 연구는 대형 언어 모델의 보안성을 검증하고 개선하는 데 큰 기여를 하였으며, 관련 분야의 전문가들은 이 연구가 앞으로의 보안 기술 발전에 중요한 기초가 될 것이라고 평가하고 있다.