Command Palette

Search for a command to run...

7일 전

특징 최적 일치를 통한 폐쇄형 MLLM에 대한 적대적 공격

Xiaojun Jia Sensen Gao Simeng Qin Tianyu Pang Chao Du Yihao Huang Xinfeng Li Yiming Li Bo Li Yang Liu

특징 최적 일치를 통한 폐쇄형 MLLM에 대한 적대적 공격

초록

다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 여전히 전이 가능한 적대적 예제에 취약하다. 기존의 방법들은 일반적으로 적대적 샘플과 타겟 샘플 간의 전역 특징(예: CLIP의 [CLS] 토큰)을 일치시키는 방식으로 표적 공격을 수행하지만, 패치 토큰 내에 포함된 풍부한 국소 정보를 무시하는 경우가 많다. 이로 인해 특징 일치도가 최적화되지 않으며, 특히 폐쇄형 소스 모델의 경우 전이 가능성에 한계가 발생한다. 이러한 문제를 해결하기 위해, 특징 최적 일치를 기반으로 한 표적 전이 가능한 적대적 공격 방법인 FOA-Attack을 제안한다. 제안하는 방법은 전역 수준에서 코사인 유사도를 기반으로 한 전역 특징 손실을 도입하여, 적대적 샘플의 대규모 특징을 타겟 샘플의 특징과 일치시킨다. 국소 수준에서는 Transformer 내부에 존재하는 풍부한 국소 표현을 활용하여, 군집화 기법을 통해 간결한 국소 패턴을 추출함으로써 중복된 국소 특징을 완화한다. 이후 적대적 샘플과 타겟 샘플 간의 국소 특징 일치를 최적 운반(Optimal Transport, OT) 문제로 모델링하고, 국소 군집 최적 운반 손실을 제안하여 세부 특징 일치를 정교하게 개선한다. 또한, 적대적 예제 생성 과정에서 다수의 모델이 미치는 영향을 적응적으로 조절할 수 있도록 동적 앙상블 모델 가중 전략을 제안함으로써 전이 가능성을 더욱 향상시킨다. 다양한 모델을 대상으로 수행한 광범위한 실험 결과는 제안된 방법이 기존 최고 수준의 기법들을 능가함을 보여주며, 특히 폐쇄형 MLLM으로의 전이 성능에서 뛰어난 성능을 발휘함을 확인하였다.

코드 저장소

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
특징 최적 일치를 통한 폐쇄형 MLLM에 대한 적대적 공격 | 연구 논문 | HyperAI초신경