2달 전
깊은 신경망의 은닉 공간 제한을 통한 적대적 방어
Aamir Mustafa; Salman Khan; Munawar Hayat; Roland Goecke; Jianbing Shen; Ling Shao

초록
깊은 신경망은 적대적 공격에 취약하며, 입력 이미지에 미세한 변동을 추가하여 속일 수 있습니다. 기존의 방어 기법들은 적이 네트워크에 대한 완전한 지식을 가지고 있으며 여러 번 반복하여 강력한 변동을 찾을 수 있는 화이트박스 공격 환경에서 크게 고통받습니다. 우리는 이러한 변동이 존재하는 주된 이유가 학습된 특성 공간에서 다른 클래스 샘플들이 서로 매우 가까이 위치해 있기 때문임을 관찰하였습니다. 이는 입력에 인지할 수 없는 변동을 추가함으로써 모델의 결정이 완전히 바뀔 수 있게 합니다. 이를 해결하기 위해, 우리는 깊은 네트워크의 중간 특성 표현을 클래스별로 분리하는 방법을 제안합니다. 구체적으로, 각 클래스의 특성을 다른 클래스들의 볼록 다면체(convex polytope)와 최대한 멀리 떨어진 볼록 다면체 내부에 있도록 강제합니다. 이렇게 하면 네트워크는 각 클래스에 대해 명확하고 먼 결정 영역을 학습하도록 강제됩니다. 우리는 이 간단한 특성 제약 조건이 청정 이미지에서의 분류 성능을 저하시키지 않으면서도 가장 강력한 화이트박스 공격까지 모델의 견고성을 크게 향상시키는 것을 확인하였습니다. 우리는 블랙박스 및 화이트박스 공격 시나리오에서 광범위한 평가 결과를 보고하며, 이는 최신 방어 기법들보다 상당히 우수한 성능 향상을 보여줍니다.