
초록
작은 데이터셋과 낮은 해상도 이미지에서 경량화된 비전 트랜스포머(Vision Transformer, ViT)가 컨볼루션 신경망(Convolutional Neural Networks, CNNs)인 ResNet과 동등하거나 이를 초월할 수 있는가? 본 보고서는 마스크된 오토인코더 기법을 활용한 사전 훈련을 통해 순수한 ViT가 실제로 우수한 성능을 달성할 수 있음을 입증한다. 이 과정에서 이미지 스케일링을 최소화한 방식이 사용되었다. CIFAR-10 및 CIFAR-100 데이터셋에서 수행한 실험에서는 파라미터 수가 365만 개 미만이고, 곱셈-합산 연산(MAC) 횟수가 0.27G 이하인 ViT 모델을 사용하여 경량 모델로 분류하였다. 기존의 접근 방식과 달리, 본 연구는 CIFAR-10 및 CIFAR-100 데이터셋의 이미지를 크게 확대하지 않고도 유사한 경량 트랜스포머 기반 아키텍처 중 최고 수준의 성능을 달성하였다. 이 성과는 본 모델이 작고 제한된 데이터셋을 다루는 데 뛰어난 효율성을 보이며, 원본 해상도에 근접한 이미지 또한 효과적으로 처리할 수 있음을 강조한다.