17일 전

작은 데이터셋에 대해 이미지 크기를 최소한으로 축소하면서 경량화된 시각적 Transformer의 사전 학습

Jen Hong Tan
작은 데이터셋에 대해 이미지 크기를 최소한으로 축소하면서 경량화된 시각적 Transformer의 사전 학습
초록

작은 데이터셋과 낮은 해상도 이미지에서 경량화된 비전 트랜스포머(Vision Transformer, ViT)가 컨볼루션 신경망(Convolutional Neural Networks, CNNs)인 ResNet과 동등하거나 이를 초월할 수 있는가? 본 보고서는 마스크된 오토인코더 기법을 활용한 사전 훈련을 통해 순수한 ViT가 실제로 우수한 성능을 달성할 수 있음을 입증한다. 이 과정에서 이미지 스케일링을 최소화한 방식이 사용되었다. CIFAR-10 및 CIFAR-100 데이터셋에서 수행한 실험에서는 파라미터 수가 365만 개 미만이고, 곱셈-합산 연산(MAC) 횟수가 0.27G 이하인 ViT 모델을 사용하여 경량 모델로 분류하였다. 기존의 접근 방식과 달리, 본 연구는 CIFAR-10 및 CIFAR-100 데이터셋의 이미지를 크게 확대하지 않고도 유사한 경량 트랜스포머 기반 아키텍처 중 최고 수준의 성능을 달성하였다. 이 성과는 본 모델이 작고 제한된 데이터셋을 다루는 데 뛰어난 효율성을 보이며, 원본 해상도에 근접한 이미지 또한 효과적으로 처리할 수 있음을 강조한다.

작은 데이터셋에 대해 이미지 크기를 최소한으로 축소하면서 경량화된 시각적 Transformer의 사전 학습 | 최신 연구 논문 | HyperAI초신경