Few-shot 학습을 위한 로컬 디스크립터 기반 이미지-클래스 측정 재검토

소수 샘플 학습(few-shot learning)은 각 클래스에 대해 매우 적은 훈련 예제가 있는 경우 이미지를 분류하는 분류기를 학습하는 것을 목표로 합니다. 최근 연구에서는 이미지 레벨 특징 기반 측정 방법을 주로 사용하여 유망한 분류 성능을 달성하였습니다. 그러나 본 논문에서는 소수 샘플 학습에서 예제의 부족성을 고려할 때 이러한 레벨의 측정 방법이 충분히 효과적이지 않을 수 있다는 주장을 제시합니다. 대신, 로컬 불변 특징(local invariant features)의 전성기 시절에 나타난 놀라운 성공을 바탕으로 로컬 디스크립터 기반 이미지-클래스 측정 방법을 사용해야 한다고 생각합니다. 특히, 최근 에피소드적 훈련 메커니즘(episodic training mechanism)을 활용하여 Deep Nearest Neighbor Neural Network (이하 DN4)를 제안하고 이를 단일 구조로(end-to-end) 훈련시키는 방법을 제시합니다. 이 모델의 핵심 차이는 최종 계층에서 이미지 레벨 특징 기반 측정 방법을 로컬 디스크립터 기반 이미지-클래스 측정 방법으로 대체하는 것입니다. 이 측정은 컨볼루션 특징 맵(convolutional feature maps)의 깊은 로컬 디스크립터 위에서 온라인으로 $k$-최근접 이웃($k$-nearest neighbor) 검색을 수행하여 이루어집니다. 제안된 DN4는 이미지-클래스 측정에 최적화된 깊은 로컬 디스크립터를 학습하며, 같은 클래스 내에서 시각 패턴의 교환 가능성을 통해 예제 부족 상황에서 이러한 측정 방법의 더 높은 효율성을 활용합니다. 우리의 연구는 소수 샘플 학습에 대한 간단하면서도 효과적이고 계산적으로 효율적인 프레임워크를 제공합니다. 벤치마크 데이터셋에 대한 실험 연구는 관련 최신 기술(state-of-the-art)보다 우월함을 일관되게 보여주며, 가장 큰 절대 개선 폭은 $17\%$입니다. 소스 코드는 \UrlFont{https://github.com/WenbinLee/DN4.git}에서 다운로드할 수 있습니다.