분류기의 정확도-강건성 트레이드오프를 적응적 스무딩을 통해 개선하기

기존 연구들은 적대적 공격에 강건한 신경망 분류기 구축을 위한 다양한 방법들을 제안해 왔으나, 실무자들은 이러한 방법들이 일반적으로 깨끗한 정확도(정확도)에 매우 심각한 손실을 초래하기 때문에 여전히 이를 도입하는 데 회의적이다. 본 논문은 일반적으로 깨끗한 정확도 최적화를 위해 설계된 표준 분류기와 강건성(로버스트성)을 갖춘 분류기의 출력 확률을 혼합함으로써 이 정확도-강건성 간의 상충 관계를 상당 부분 완화한다. 우리는 강건한 기본 분류기의 올바른 예시와 잘못된 예시에 대한 신뢰도(confidence) 차이가 이 개선의 핵심 요소임을 보여준다. 이와 함께 직관적 해석과 실험적 증거를 제시할 뿐만 아니라, 현실적인 가정 하에서 혼합된 분류기의 강건성을 이론적으로 보장한다. 더불어, 적대적 입력 탐지기(adversarial input detector)를 혼합 네트워크에 적응시켜 두 개의 기본 모델 간의 혼합 비율을 적응적으로 조절함으로써 강건성 달성에 따른 정확도 손실을 추가로 감소시킨다. 제안된 유연한 방법, 즉 '적응적 스무딩(adaptive smoothing)'은 기존의 또는 미래의 깨끗한 정확도 향상, 강건성 강화, 적대적 입력 탐지 기법과도 함께 활용 가능하다. 실증 평가에서는 AutoAttack 및 적응형 공격(adaptive attack)과 같은 강력한 공격 방법을 고려하였다. CIFAR-100 데이터셋에서 본 방법은 깨끗한 정확도 85.21%를 달성하면서도 $\ell_\infty$-AutoAttack ($\varepsilon = 8/255$)에 대한 정확도를 38.72% 유지하여 제출 시점 기준 RobustBench CIFAR-100 벤치마크에서 두 번째로 강건한 방법이 되었으며, 모든 비교 모델들에 비해 깨끗한 정확도를 10%포인트 향상시켰다. 본 논문에서 제안한 방법을 구현한 코드는 https://github.com/Bai-YT/AdaptiveSmoothing 에서 공개되어 있다.