17일 전

완전 주의 기반 네트워크와 자발적 타입 라벨링을 갖춘 토큰

Bingyin Zhao, Zhiding Yu, Shiyi Lan, Yutao Cheng, Anima Anandkumar, Yingjie Lao, Jose M. Alvarez
완전 주의 기반 네트워크와 자발적 타입 라벨링을 갖춘 토큰
초록

최근 연구들은 비전 트랜스포머(Vision Transformers, ViTs)가 분포 외(out-of-distribution) 상황에 대해 강건함을 보이고 있음을 시사하고 있다. 특히, 완전한 어텐션 네트워크(Fully Attentional Network, FAN)라는 ViT 백본의 일종은 최첨단의 강건성을 달성하였다. 본 논문에서는 FAN 모델들을 재검토하고, 자발적 토큰 레이블링(self-emerging token labeling, STL) 프레임워크를 도입하여 사전 학습 과정을 개선한다. 제안하는 방법은 이중 단계 학습 프레임워크를 포함한다. 구체적으로, 먼저 의미론적으로 유의미한 패치 토큰 레이블을 생성할 수 있는 FAN 토큰 레이블러(FAN-TL)를 학습한 후, 토큰 레이블과 원래의 클래스 레이블을 모두 활용하여 FAN 학습자 모델을 학습한다. 제안된 STL 프레임워크를 통해, FAN-L-Hybrid(77.3M 파라미터) 기반의 최적 모델은 ImageNet-1K에서 84.8%의 Top-1 정확도와 ImageNet-C에서 42.1%의 mCE(misclassification error)를 달성하며, 추가 데이터 없이 ImageNet-A(46.1%)와 ImageNet-R(56.6%)에서 새로운 최고 성능을 기록하였다. 이는 원래의 FAN 모델 대비 상당한 성능 향상을 보인 것이다. 또한, 제안된 프레임워크는 세그멘테이션과 같은 하류 작업에서도 뛰어난 성능 향상을 보였으며, 대조 모델 대비 최대 1.7%의 강건성 향상이 이루어졌다. 코드는 https://github.com/NVlabs/STL에서 공개되어 있다.

완전 주의 기반 네트워크와 자발적 타입 라벨링을 갖춘 토큰 | 최신 연구 논문 | HyperAI초신경