피라미드 적대적 훈련은 ViT 성능을 향상시킨다

강력한 데이터 증강은 비전 트랜스포머(Vision Transformer, ViT)의 뛰어난 일반화 성능의 핵심 요소이다. 그 중 하나인 적대적 훈련(Adversarial Training, AT)은 많은 이전 연구에서 정상 데이터 정확도(clean accuracy)가 낮아지는 경향을 보였지만, 본 연구에서는 ViT의 전반적인 성능을 향상시키는 간단하면서도 효과적인 기법인 피라미드 적대적 훈련(Pyramid Adversarial Training, PyramidAT)을 제안한다. 이 기법은 정상 샘플과 적대적 샘플에 동일한 드롭아웃(Dropout) 및 스토캐스틱 딥스(Stochastic Depth) 설정을 적용하는 '매칭된'(matched) 드롭아웃과 스토캐스틱 딥스 정규화와 결합된다. CNN에 대해 AdvProp가 성능을 향상시킨 것과 유사하게, 본 연구의 피라미드 적대적 훈련은 ViT 및 관련 아키텍처에서 분포 내 정확도(in-distribution accuracy)와 분포 외 내성(out-of-distribution robustness) 사이의 트레이드오프를 극복한다. 특히 ImageNet-1K 데이터만으로 훈련할 경우, ViT-B 모델의 ImageNet 정상 정확도에서 1.82%의 절대적 개선을 이끌어냈으며, 동시에 7개의 ImageNet 내성성 지표에서 1.76%에서 15.68%까지의 절대적 성능 향상을 달성하였다. 추가 데이터 없이도 ViT-B/16 백본과 본 연구의 피라미드 적대적 훈련만을 사용하여 ImageNet-C(41.42 mCE), ImageNet-R(53.92%), ImageNet-Sketch(41.04%)에서 새로운 최고 성능을 기록하였다. 본 연구의 코드는 공개되어 있으며, pyramidat.github.io에서 확인할 수 있다.