이산 적대적 훈련을 통한 시각적 표현 강화

적대적 훈련(Adversarial Training, AT)은 적대적 예제에 대응하기 위한 가장 효과적인 방법 중 하나로 널리 인정받고 있으나, 표준 성능을 크게 저하시켜 산업 규모의 생산 및 응용에 있어 활용도가 제한적이다. 놀랍게도 이 현상은 자연어 처리(Natural Language Processing, NLP) 작업에서는 완전히 반대되는 양상을 보인다. 즉, NLP에서는 AT가 일반화 성능에 오히려 긍정적인 영향을 미칠 수 있다. 우리는 NLP 작업에서 AT의 장점이 이산적이고 기호적인 입력 공간에서 비롯된다는 점을 관찰하였다. 이러한 NLP 스타일의 AT의 장점을 활용하기 위해, 이산적 적대적 훈련(Discrete Adversarial Training, DAT)을 제안한다. DAT는 VQGAN을 활용하여 이미지 데이터를 이산적인 텍스트 유사 입력, 즉 '시각적 단어(visual words)'로 변환한다. 이후 이러한 이산적 이미지에 대해 기호적 적대적 변형을 가한 상황에서 최대 위험을 최소화하는 방식으로 훈련한다. 또한 분포 관점에서 DAT의 효과성에 대한 설명을 추가로 제시한다. 시각적 표현을 강화하는 즉시 사용 가능한 기법으로서 DAT는 이미지 분류, 객체 탐지, 자기지도 학습 등 다양한 작업에서 뚜렷한 성능 향상을 달성하였다. 특히, 마스킹된 자동에코딩(Masked Auto-Encoding, MAE)으로 사전 훈련된 모델을 본 연구의 DAT로 미세조정한 경우, 추가 데이터 없이 ImageNet-C에서 31.40 mCE, Stylized-ImageNet에서 32.77%의 top-1 정확도를 기록하며 새로운 최고 성능(SOTA)을 수립하였다. 코드는 https://github.com/alibaba/easyrobust 에 공개될 예정이다.