15일 전

단일 확산 모델을 통한 강건한 분류

Huanran Chen, Yinpeng Dong, Zhengyi Wang, Xiao Yang, Chengqi Duan, Hang Su, Jun Zhu
단일 확산 모델을 통한 강건한 분류
초록

확산 모델은 이미지 분류기의 적대적 로버스트성을 향상시키기 위해 적대적 노이즈를 정제하거나 적대적 훈련을 위한 현실적인 데이터를 생성하는 데 활용되어 왔다. 그러나 확산 기반 정제 방법은 더 강력한 적응형 공격에 의해 회피될 수 있으며, 적대적 훈련은 예상치 못한 위협에 대해서는 성능이 떨어져 이들 방법의 본질적인 한계를 드러낸다. 확산 모델의 표현 능력을 보다 효과적으로 활용하기 위해, 본 논문은 사전 훈련된 확산 모델을 기반으로 적대적 공격에 강건한 생성형 분류기인 Robust Diffusion Classifier(RDC)를 제안한다. RDC는 주어진 입력에 대해 데이터 가능도를 최대화한 후, 확산 모델이 추정한 조건부 가능도를 베이즈 정리에 따라 활용하여 최적화된 입력의 클래스 확률을 예측한다. 계산 비용을 추가로 절감하기 위해, 새로운 확산 백본인 멀티헤드 확산(Multi-head Diffusion)을 제안하고 효율적인 샘플링 전략을 개발하였다. RDC는 특정 적대적 공격에 대한 훈련이 필요 없기 때문에, 다양한 예상치 못한 위협에 대해 더 뛰어난 일반화 성능을 보인다. 특히 CIFAR-10에서 $\ell_\infty$ 노름 제약을 가진 다양한 적응형 공격($ε_\infty=8/255$)에 대해 RDC는 75.67%의 강건 정확도를 달성하여 이전 최고 성능의 적대적 훈련 모델보다 +4.77% 높은 성능을 기록하였다. 이러한 결과는 기존에 널리 연구되어온 판별형 분류기와 비교하여, 사전 훈련된 확산 모델을 활용한 생성형 분류기의 적대적 로버스트성 향상 잠재력을 강조한다. 코드는 \url{https://github.com/huanranchen/DiffusionClassifier}에서 공개되어 있다.

단일 확산 모델을 통한 강건한 분류 | 최신 연구 논문 | HyperAI초신경