2달 전

PuVAE: 적대적 예제를 정화하기 위한 변분 오토인코더

Uiwon Hwang; Jaewoo Park; Hyemi Jang; Sungroh Yoon; Nam Ik Cho
PuVAE: 적대적 예제를 정화하기 위한 변분 오토인코더
초록

심층 신경망은 다양한 분야에서 널리 사용되며 뛰어난 성능을 보여주고 있습니다. 그러나 이들은 추론 시에 입력 데이터에 정교하게 설계된 변동을 적용하여 네트워크를 위협하는 적대적 공격에 취약합니다. 특정 공격을 대처하기 위한 몇 가지 방어 방법이 제안되었지만, 다른 공격 방법은 이러한 방어 메커니즘을 우회할 수 있습니다. 따라서, 우리는 적대적 예제를 정화하는 방법인 Purifying Variational Autoencoder (PuVAE)를 제안합니다. 제안된 방법은 각 클래스의 다양체(Manifold) 상에 적대적 예제를 투영하여 적대적 변동을 제거하고, 가장 가까운 투영을 정화된 샘플로 결정합니다. 우리는 사전 지식 없이도 다양한 공격 방법에 대해 PuVAE의 강건성을 실험적으로 입증하였습니다. 실험 결과, 제안된 방법은 최신 방어 기법들과 경쟁력 있는 성능을 보였으며, 최신 정화 모델인 Defense-GAN보다 약 130배 더 빠른 추론 시간을 나타냈습니다.

PuVAE: 적대적 예제를 정화하기 위한 변분 오토인코더 | 최신 연구 논문 | HyperAI초신경