4달 전

생성 모델을 사용한 보편적 적대적 교란 학습

Jamie Hayes; George Danezis
생성 모델을 사용한 보편적 적대적 교란 학습
초록

신경망은 적대적 예제(adversarial examples)에 취약하다는 것이 알려져 있습니다. 이는 원본 입력과 시각적으로 유사하게 고의로 변형된 입력을 의미하지만, 분류 오류를 일으킵니다. 최근 연구에서는 데이터셋과 분류기 주어졌을 때, 모든 입력에 적용되어 분류 오류를 일으키는 단일 변형, 즉 소위 '유니버설 적대적 변형(universal adversarial perturbations)'이 존재함을 보여주었습니다. 본 연구에서는 유니버설 적대적 네트워크(universal adversarial networks)를 소개합니다. 이는 생성된 출력이 데이터셋의 정상 샘플에 추가되었을 때 대상 분류기를 속이는 생성 모델입니다. 우리는 이 기술이 알려진 유니버설 적대적 공격 방법들보다 우수함을 입증하였습니다.