한 달 전
질의 기반 적대 공격에 대한 랜덤화 특징 방어의 강건성 이해
Quang H. Nguyen, Yingjie Lao, Tung Pham, Kok-Seng Wong, Khoa D. Doan

초록
최근 연구들은 깊은 신경망이 원본 이미지에 근접한 샘플이지만 모델이 잘못 분류하도록 유도할 수 있는 적대적 예시에 취약함을 보여주었다. 모델의 출력만 접근할 수 있는 경우에도 공격자는 블랙박스 공격을 통해 이러한 적대적 예시를 생성할 수 있다. 본 연구에서는 추론 시 모델의 중간 레이어에서 숨겨진 특징에 무작위 노이즈를 추가함으로써 블랙박스 공격에 대한 간단하고 경량화된 방어 기법을 제안한다. 이 방법은 점수 기반 및 결정 기반 블랙박스 공격에 대해 모델의 저항력을 효과적으로 향상시킨다는 것을 이론적으로 입증하였다. 특히 본 방어 기법은 적대적 훈련이 필요하지 않으며 정확도에 미미한 영향을 미쳐 사전 훈련된 모델이라면 어떤 모델에도 적용 가능하다. 또한, 적대적 목적 함수의 기울기 기반으로 모델의 다양한 부분에 노이즈를 선택적으로 추가하는 것이 중요함을 분석을 통해 밝혀냈다. 이는 공격 과정에서 변화할 수 있는 요소이다. 다양한 아키텍처를 가진 다양한 모델을 대상으로 한 광범위한 실험을 통해 제안하는 방어 기법이 여러 블랙박스 공격에 대해 뛰어난 강건성을 보임을 입증하였다.