Few-shot 학습을 위한 Transformers에서 속성 서rogate 학습 및 스펙트럴 토큰 풀링

이 논문은 속성 대체 학습(attribute surrogates learning)과 스펙트럼 토큰 풀링(spectral tokens pooling)을 통해 데이터 효율성을 향상시킬 수 있는 새로운 계층적 연쇄형 트랜스포머(hierarchically cascaded transformers)를 제안한다. 최근 비전 트랜스포머(Vision Transformers)는 시각 인식 분야에서 합성곱 신경망(Convolutional Neural Networks)의 유망한 대안으로 주목받고 있다. 그러나 충분한 데이터가 부족할 경우 과적합(overfitting)에 빠지며 성능이 저하되는 문제가 발생한다. 데이터 효율성을 개선하기 위해 본 연구는 스펙트럼 토큰 풀링을 통해 이미지의 내재적 구조를 활용하고, 잠재적 속성 대체물(learnable attribute surrogates)을 통해 가중치를 최적화하는 계층적 연쇄형 트랜스포머를 제안한다. 내재적 이미지 구조는 스펙트럼 토큰 풀링을 통해 전경 콘텐츠와 배경 노이즈 간의 모호성을 줄이는 데 기여한다. 또한 속성 대체 학습 방식은 단순히 레이블에 의해 지정된 간단한 시각적 개념이 아닌, 이미지-레이블 쌍에 포함된 풍부한 시각 정보를 효과적으로 활용할 수 있도록 설계되었다. 본 연구에서 제안하는 계층적 연쇄형 트랜스포머(HCTransformers)는 DINO라는 자기지도 학습 프레임워크를 기반으로 구축되었으며, 여러 대표적인 소수 샘플 학습(few-shot learning) 벤치마크에서 평가되었다.유도 설정(inductive setting)에서 HCTransformers는 miniImageNet에서 5-way 1-shot 정확도 기준으로 DINO 기준선 대비 9.7% 향상되었으며, 5-way 5-shot 정확도에서는 9.17% 개선되어, 분류 가능한 특징을 효율적으로 추출할 수 있음을 입증하였다. 또한 miniImageNet, tieredImageNet, FC100, CIFAR-FS 등 네 가지 대표적인 벤치마크 데이터셋에서 5-way 1-shot 및 5-way 5-shot 설정 모두에서 최신 기술(SOTA) 수준의 소수 샘플 분류 방법들과 비교해 뚜렷한 성능 우위를 보였다. 학습된 가중치 및 코드는 https://github.com/StomachCold/HCTransformers 에 공개되어 있다.