특성 노이즈 제거를 통한 적대적 강인성 향상

이미지 분류 시스템에 대한 적대적 공격은 합성곱 네트워크(CNN)에게 도전 과제를 제시하며, 이들을 이해하는 기회를 제공합니다. 본 연구는 이미지에 대한 적대적 섭동이 이러한 네트워크가 구축한 특징에 노이즈를 초래한다는 점을 제안합니다. 이 관찰 결과를 바탕으로, 우리는 특징 노이즈 제거를 통해 적대적 견고성을 향상시키는 새로운 네트워크 아키텍처를 개발하였습니다. 구체적으로, 우리의 네트워크는 비국소 평균(non-local means) 또는 다른 필터를 사용하여 특징을 노이즈 제거하는 블록을 포함하며, 전체 네트워크는 엔드투엔드로 훈련됩니다. 적대적 훈련과 결합할 때, 우리의 특징 노이즈 제거 네트워크는 화이트박스 및 블랙박스 공격 설정에서 모두 최신 기술의 적대적 견고성을 크게 개선합니다. ImageNet에서 10단계 PGD 화이트박스 공격 하에서 이전 연구가 27.9%의 정확도를 보였던 반면, 우리의 방법은 55.7%의 정확도를 달성했습니다. 심지어 2000단계 PGD 화이트박스 공격이라는 극단적인 조건에서도 우리의 방법은 42.6%의 정확도를 유지하였습니다. 또한, 우리의 방법은 2018년 적대적 공격 및 방어 경진 대회(Competition on Adversarial Attacks and Defenses, CAAD)에서 1위를 차지하였으며, 비밀리에 진행된 ImageNet 유사 테스트 데이터셋에서 48명의 미확인 공격자들에 대해 50.6%의 분류 정확도를 달성하여 준우승 접근법보다 약 10% 우수한 성능을 보였습니다. 코드는 https://github.com/facebookresearch/ImageNet-Adversarial-Training 에서 확인할 수 있습니다.