강건한 비전 트랜스포머 방향으로

최근 비전 트랜스포머(Vision Transformer, ViT) 및 그 개선된 변형들에 대한 연구에서, 자기 주의(self-attention) 기반 네트워크가 대부분의 비전 작업에서 전통적인 합성곱 신경망(Convolutional Neural Networks, CNNs)을 능가함이 입증되었다. 그러나 기존의 ViT들은 주로 표준 정확도와 계산 비용에 초점을 맞추고 있으며, 모델의 내재적 강건성과 일반화 능력에 미치는 영향에 대한 탐색이 부족한 실정이다. 본 연구에서는 ViT의 구성 요소들이 적대적 예제, 일반적인 오염, 분포 변화에 대한 강건성에 미치는 영향을 체계적으로 평가한다. 그 결과, 일부 구성 요소가 강건성에 해로울 수 있음을 발견하였다. 이러한 강건성에 유리한 구성 요소들을 활용하고 조합함으로써, 강건성과 뛰어난 성능을 동시에 갖춘 새로운 비전 트랜스포머인 강건 비전 트랜스포머(Robust Vision Transformer, RVT)를 제안한다. 또한 RVT의 성능을 further 향상시키기 위해, 위치 인지 주의 스케일링(position-aware attention scaling)과 패치 단위 증강(patch-wise augmentation)이라는 두 가지 새로운 플러그 앤 플레이 기법을 제안하며, 이를 RVT로 약칭한다. ImageNet 및 6개의 강건성 벤치마크에서의 실험 결과, 기존 ViT 및 최첨단 CNN들과 비교해 RVT가 탁월한 강건성과 일반화 능력을 보임을 확인하였다. 더불어 RVT-S는 ImageNet-C와 ImageNet-Sketch를 포함한 여러 강건성 리더보드에서 Top-1 순위를 달성하였다. 코드는 \url{https://github.com/alibaba/easyrobust}에서 공개될 예정이다.