
초록
최근 이미지 트랜스포머의 발전은 놀라운 성과를 보여주며 전통적인 CNN 아키텍처와의 격차를 크게 좁혔다. 일반적인 절차는 ImageNet-21k와 같은 대규모 데이터셋에서 학습한 후, ImageNet-1k에서 미세조정(finetuning)을 수행하는 것이다. 미세조정 이후, 연구자들은 보통 CIFAR-10/100과 같은 소규모 데이터셋에서의 전이학습 성능을 평가하지만, 티니 이미지넷(Tiny ImageNet)에 대해서는 거의 다루지 않았다. 본 논문은 비전 트랜스포머(Vision Transformer, ViT)가 티니 이미지넷에서의 성능에 대해 최신 정보를 제공한다. 여기에는 비전 트랜스포머(ViT), 데이터 효율적인 이미지 트랜스포머(DeiT), 이미지 트랜스포머 내 클래스 주의력(Class Attention in Image Transformer, CaiT), 그리고 스위н 트랜스포머(Swin Transformers)가 포함된다. 특히 스위н 트랜스포머는 검증 정확도 91.35%를 기록하며 현재까지의 최고 성능을 경신했다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/ehuynh1106/TinyImageNet-Transformers