Big Data 패러다임을 벗어나는 Compact Transformers

트랜스포머가 언어 처리의 표준으로 부상하고 컴퓨터 비전 분야에서도 발전함에 따라, 파라미터 크기와 학습 데이터 양이 증가하는 추세를 보이고 있습니다. 이로 인해 많은 연구자들이 트랜스포머가 소규모 데이터셋에는 적합하지 않다고 믿게 되었습니다. 이러한 경향은 특정 과학 분야에서 데이터의 한정된 접근성과 자원이 제한된 연구자들의 배제라는 문제를 야기합니다. 본 논문에서는 Compact Transformers(콤팩트 트랜스포머)를 소개하여 소규모 학습을 위한 접근 방식을 제시하고자 합니다. 우리는 이번에 처음으로 적절한 크기와 컨볼루셔널 토큰화를 통해 트랜스포머가 과적합을 피하고 소규모 데이터셋에서 최신 CNN보다 우수한 성능을 낼 수 있음을 보여줍니다. 우리의 모델은 모델 크기에 있어 유연하며, 0.28M 파라미터로도 경쟁력 있는 결과를 달성할 수 있습니다. 최고 성능의 모델은 CIFAR-10에서 3.7M 파라미터만으로 스크래치 학습 시 98%의 정확도를 달성하며, 이는 이전 트랜스포머 기반 모델들보다 10배 이상 작으면서도 데이터 효율성이 크게 개선된 것입니다. 또한, ResNet50의 15% 크기로 유사한 성능을 내는 것이 가능합니다. 콤팩트 트랜스포머(CCT)는 많은 현대적인 CNN 기반 접근 방식뿐만 아니라 최근 NAS(Neural Architecture Search) 기반 접근 방식 일부보다도 우수한 성능을 보입니다. 또한, Flowers-102에서 새로운 최고 성능(SOTA) 결과인 top-1 정확도 99.76%를 달성하였으며, ImageNet(29% 더 적은 파라미터로 ViT와 비교하여 82.71% 정확도) 및 자연어 처리(NLP) 작업에서도 기존 베이스라인을 개선했습니다. 우리의 간단하면서도 콤팩트한 트랜스포머 설계는 자원이 제한된 컴퓨팅 환경에서 또는 소규모 데이터셋을 다루는 연구자들에게 트랜스포머 연구를 더욱 용이하게 만듭니다. 이를 통해 우리는 데이터 효율적인 트랜스포머에 대한 기존 연구 노력을 확장하고 있습니다. 우리의 코드와 사전 학습된 모델들은 https://github.com/SHI-Labs/Compact-Transformers 에 공개되어 있습니다.