11일 전
적대적으로 강건한 ImageNet 모델은 더 잘 전이되는가?
Hadi Salman, Andrew Ilyas, Logan Engstrom, Ashish Kapoor, Aleksander Madry

초록
전이 학습(transfer learning)은 딥러닝에서 널리 사용되는 패러다임으로, 표준 데이터셋에서 사전 훈련된 모델을 하류 작업에 효율적으로 적응시키는 방식이다. 일반적으로 더 나은 사전 훈련 모델일수록 전이 학습 성능이 뛰어나며, 이는 초기 정확도가 전이 학습 성능의 핵심 요소임을 시사한다. 본 연구에서는 또 다른 중요한 요소를 규명한다. 즉, 적대적 공격에 강건한 모델은 정확도가 낮을 수 있지만, 전이 학습에 활용될 때 일반적인 모델보다 더 우수한 성능을 보인다는 것을 발견하였다. 구체적으로, 적대적 공격에 강건한 ImageNet 분류기들을 대상으로 하여, 표준 하류 분류 작업 세트에서 더 높은 정확도를 달성함을 보여주었다. 추가 분석을 통해 전이 학습 맥락에서 강건 모델과 일반 모델 간의 더 많은 차이점이 드러났다. 본 연구 결과는 최근 제기된 가설과 일치하며, 이 가설은 강건성이 개선된 특징 표현(feature representations)을 유도한다고 주장한다. 본 연구의 코드와 모델은 https://github.com/Microsoft/robust-models-transfer 에서 공개되어 있다.