2달 전

적대적 예제의 설명 및 활용

Ian J. Goodfellow; Jonathon Shlens; Christian Szegedy
적대적 예제의 설명 및 활용
초록

여러 머신 러닝 모델, 특히 신경망을 포함하여, 적대적 예제(adversarial examples)를 일관되게 잘못 분류하는 경향이 있습니다. 이는 데이터셋의 예제에 작은 하지만 고의적으로 최악의 조건을 만족하도록 변형(perturbations)을 가해 생성된 입력이, 모델이 높은 확신으로 잘못된 답변을 출력하게 하는 경우를 의미합니다. 이 현상에 대한 초기 설명 시도들은 비선형성과 과적합(overfitting)에 초점을 맞추었습니다. 그러나 우리는 신경망이 적대적 변형에 취약한 주요 원인이 선형 성질(linear nature) 때문이라고 주장합니다. 이 설명은 새로운 정량적 결과로 뒷받침되며, 그 중에서도 가장 흥미로운 사실인 다양한 아키텍처와 학습 세트에서의 일반화(generalization) 능력을 처음으로 설명합니다. 또한, 이 관점은 간단하고 빠른 적대적 예제 생성 방법을 제공합니다. 이 접근법을 활용하여 적대적 학습(adversarial training)에 사용되는 예제를 제공함으로써, MNIST 데이터셋에서 맥스아웃(maxout) 네트워크의 테스트 세트 오류를 줄일 수 있었습니다.

적대적 예제의 설명 및 활용 | 최신 연구 논문 | HyperAI초신경