
기계 학습 및 딥 러닝 모델의 인기가 증가함에 따라, 이들 모델이 악의적인 입력에 취약한 점에 대한 관심도 높아지고 있습니다. 이러한 적대적 예제들은 네트워크의 원래 목적에서 예측을 벗어나게 하며, 실제 보안 측면에서 점점 더 큰 우려 사항이 되고 있습니다. 이러한 공격을 방어하기 위해, 신경망은 전통적인 이미지 처리 방법이나 최신 방어 모델을 활용하여 데이터의 변동성을 줄일 수 있습니다. 전역적으로 노이즈를 감소시키는 방어 접근법은 적대적 공격에 대해 효과적이지만, 종종 이미지 내 중요한 데이터를 왜곡하는 손실성 있는 접근법입니다. 본 연구에서는 적대적 공격으로 영향을 받은 데이터를 청소하기 위한 시각적 주요성 기반 접근법을 제안합니다. 우리의 모델은 적대적 이미지의 주요 영역을 활용하여 대응책을 제공하며, 청소된 이미지 내에서 상대적으로 손실을 줄입니다. 우리는 공격 전, 공격 중, 그리고 청소 방법 적용 후 최신 주요성 방법들의 효과성을 평가하여 우리 모델의 정확도를 측정합니다. 두 개의 주요성 데이터셋에서 기존의 적대적 공격 방법과 관련 방어책들을 비교하여 우리 제안 접근법의 효과성을 입증합니다. 우리의 대상별 접근법은 전통적인 접근법과 최신 접근법 모두와 비교해 다양한 표준 통계 및 거리 주요성 지표에서 유의미한 향상을 보여줍니다.주요 용어:- 기계 학습 (Machine Learning)- 딥 러닝 (Deep Learning)- 적대적 예제 (Adversarial Examples)- 신경망 (Neural Networks)- 노이즈 감소 (Noise Reduction)- 시각적 주요성 (Visual Saliency)