완전 주의 기반 네트워크와 자발적 타입 라벨링을 갖춘 토큰

최근 연구들은 비전 트랜스포머(Vision Transformers, ViTs)가 분포 외(out-of-distribution) 상황에 대해 강건함을 보이고 있음을 시사하고 있다. 특히, 완전한 어텐션 네트워크(Fully Attentional Network, FAN)라는 ViT 백본의 일종은 최첨단의 강건성을 달성하였다. 본 논문에서는 FAN 모델들을 재검토하고, 자발적 토큰 레이블링(self-emerging token labeling, STL) 프레임워크를 도입하여 사전 학습 과정을 개선한다. 제안하는 방법은 이중 단계 학습 프레임워크를 포함한다. 구체적으로, 먼저 의미론적으로 유의미한 패치 토큰 레이블을 생성할 수 있는 FAN 토큰 레이블러(FAN-TL)를 학습한 후, 토큰 레이블과 원래의 클래스 레이블을 모두 활용하여 FAN 학습자 모델을 학습한다. 제안된 STL 프레임워크를 통해, FAN-L-Hybrid(77.3M 파라미터) 기반의 최적 모델은 ImageNet-1K에서 84.8%의 Top-1 정확도와 ImageNet-C에서 42.1%의 mCE(misclassification error)를 달성하며, 추가 데이터 없이 ImageNet-A(46.1%)와 ImageNet-R(56.6%)에서 새로운 최고 성능을 기록하였다. 이는 원래의 FAN 모델 대비 상당한 성능 향상을 보인 것이다. 또한, 제안된 프레임워크는 세그멘테이션과 같은 하류 작업에서도 뛰어난 성능 향상을 보였으며, 대조 모델 대비 최대 1.7%의 강건성 향상이 이루어졌다. 코드는 https://github.com/NVlabs/STL에서 공개되어 있다.