
초록
생성 모델을 활용한 적대적 정제는 강력한 적대적 방어 성능을 보여준다. 이러한 방법들은 분류기와 공격 유형에 관계없이 적용 가능하여 유연성을 지니고 있지만, 종종 계산량이 많다는 단점이 있다. 최근 확산 모델과 스코어 네트워크의 발전은 이미지 생성 능력을 향상시켰으며, 이를 통해 적대적 정제의 성능도 향상되었다. 다른 한편, 적대적 훈련은 특정 공격 벡터에 대한 지식이 필요하기 때문에, 적대적 예시에 대해 광범위하게 훈련을 수행해야 하는 고비용의 방식이다. 이러한 제약을 극복하기 위해, 사전 훈련된 확산 모델과 캡션 생성 모델을 활용하여 적대적 공격에 대응하는 새로운 프레임워크인 언어 지도적 적대적 정제(Language Guided Adversarial Purification, LGAP)를 제안한다. 입력 이미지를 받은 후, 본 방법은 먼저 이미지에 대한 캡션을 생성하고, 이를 확산 네트워크를 통해 적대적 정제 과정을 안내한다. 제안한 방법은 강력한 적대적 공격에 대해 평가되었으며, 적대적 내성 강화 측면에서 효과적임을 입증하였다. 실험 결과, LGAP는 특별한 네트워크 훈련 없이도 기존의 대부분의 적대적 방어 기법을 능가함을 보였다. 이는 대규모 데이터셋에서 사전 훈련된 모델의 일반화 능력이 높다는 점을 시사하며, 향후 연구에 있어 매우 유망한 방향성을 제시한다.