
초록
단일 이미지 수준의 레이블은 종종 이미지의 내용 중 일부에만 정확하게 해당되며, 특히 복잡한 실제 세계의 장면을 묘사할 경우 더욱 그렇다. 이러한 방식은 많은 분류 시나리오에서는 수용 가능할 수 있지만, 훈련 시기와 테스트 시기의 클래스 집합이 크게 다를 경우 응용에 있어 심각한 도전 과제를 제기한다. 본 논문에서는 이러한 문제를 $\textit{소수 샘플 학습}$(few-shot learning)의 맥락에서 보다 깊이 있게 탐구한다. 입력 샘플을 패치로 분할하고 비전 트랜스포머(Vision Transformers)를 활용해 각 패치를 인코딩함으로써, 서로 다른 클래스에 속해 있더라도 이미지 간의 국소 영역 간의 의미적 대응 관계를 설정할 수 있다. 이후 추론 시점에서 온라인 최적화를 통해 지지 집합(support set)에 기반하여 작업에 가장 정보량이 큰 패치 임베딩을 결정함으로써, 이미지에서 $\textit{어떤 부분이 가장 중요하게 작용하는지}$에 대한 시각적 해석 가능성을 추가로 제공한다. 또한, 마스크된 이미지 모델링을 통한 비지도 학습 기술의 최근 발전을 활용하여 세부 레이블의 부족을 극복하고, 이미지 레이블의 부정적 영향(즉, $\textit{감독 붕괴}$(supervision collapse)를 피하면서 데이터의 더 일반적인 통계적 구조를 학습한다. 실험 결과는 제안한 방법의 경쟁력을 입증하며, 5-샷 및 1-샷 시나리오에서 네 가지 대표적인 소수 샘플 분류 벤치마크에서 새로운 최고 성능을 달성하였다.