17일 전

피라미드 적대적 훈련은 ViT 성능을 향상시킨다

Charles Herrmann, Kyle Sargent, Lu Jiang, Ramin Zabih, Huiwen Chang, Ce Liu, Dilip Krishnan, Deqing Sun
피라미드 적대적 훈련은 ViT 성능을 향상시킨다
초록

강력한 데이터 증강은 비전 트랜스포머(Vision Transformer, ViT)의 뛰어난 일반화 성능의 핵심 요소이다. 그 중 하나인 적대적 훈련(Adversarial Training, AT)은 많은 이전 연구에서 정상 데이터 정확도(clean accuracy)가 낮아지는 경향을 보였지만, 본 연구에서는 ViT의 전반적인 성능을 향상시키는 간단하면서도 효과적인 기법인 피라미드 적대적 훈련(Pyramid Adversarial Training, PyramidAT)을 제안한다. 이 기법은 정상 샘플과 적대적 샘플에 동일한 드롭아웃(Dropout) 및 스토캐스틱 딥스(Stochastic Depth) 설정을 적용하는 '매칭된'(matched) 드롭아웃과 스토캐스틱 딥스 정규화와 결합된다. CNN에 대해 AdvProp가 성능을 향상시킨 것과 유사하게, 본 연구의 피라미드 적대적 훈련은 ViT 및 관련 아키텍처에서 분포 내 정확도(in-distribution accuracy)와 분포 외 내성(out-of-distribution robustness) 사이의 트레이드오프를 극복한다. 특히 ImageNet-1K 데이터만으로 훈련할 경우, ViT-B 모델의 ImageNet 정상 정확도에서 1.82%의 절대적 개선을 이끌어냈으며, 동시에 7개의 ImageNet 내성성 지표에서 1.76%에서 15.68%까지의 절대적 성능 향상을 달성하였다. 추가 데이터 없이도 ViT-B/16 백본과 본 연구의 피라미드 적대적 훈련만을 사용하여 ImageNet-C(41.42 mCE), ImageNet-R(53.92%), ImageNet-Sketch(41.04%)에서 새로운 최고 성능을 기록하였다. 본 연구의 코드는 공개되어 있으며, pyramidat.github.io에서 확인할 수 있다.

피라미드 적대적 훈련은 ViT 성능을 향상시킨다 | 최신 연구 논문 | HyperAI초신경