Sparse Spatial Transformers for Few-Shot Learning 희소 공간 변환기(Sparse Spatial Transformers)를 이용한 소수 샘플 학습(Few-Shot Learning)

제한된 데이터에서 학습하는 것은 데이터 부족으로 인해 훈련된 모델의 일반화 성능이 떨어지기 때문에 도전적입니다. 전통적인 전역 풀링 표현은 유용한 국소 정보를 잃을 가능성이 큽니다. 최근 많은 소수 샷 학습 방법들이 딥 디스크립터와 픽셀 수준의 메트릭을 사용하여 이 문제에 대응하고 있습니다. 그러나 딥 디스크립터를 특징 표현으로 사용하면 이미지 문맥 정보가 손실될 수 있습니다. 또한, 이러한 방법들 대부분은 서포트 세트의 각 클래스를 독립적으로 처리하므로 차별화된 정보와 작업 특异性 임베딩을 충분히 활용하지 못합니다.본 논문에서는 작업 관련 특징을 찾고 작업 비관련 특징을 억제하는 새로운 트랜스포머 기반 신경망 구조인 스파스 시공간 트랜스포머(SSFormers)를 제안합니다. 특히, 먼저 각 입력 이미지를 다양한 크기의 여러 이미지 패치로 나누어 밀도 높은 국소 특징을 얻습니다. 이러한 특징들은 문맥 정보를 유지하면서 국소 정보를 표현합니다. 그 다음, 스파스 시공간 트랜스포머 계층을 제안하여 쿼리 이미지와 전체 서포트 세트 간의 공간적 대응 관계를 찾아 작업 관련 이미지 패치를 선택하고 작업 비관련 이미지 패치를 억제합니다. 마지막으로, 이미지 패치 매칭 모듈을 사용하여 밀도 높은 국소 표현 간의 거리를 계산함으로써 쿼리 이미지가 서포트 세트의 어느 범주에 속하는지를 결정하는 방법을 제안합니다.대표적인 소수 샷 학습 벤치마크에서 수행한 광범위한 실험 결과, 본 연구 방법이 최신 기법들보다 우월함을 입증하였습니다. 우리의 소스 코드는 \url{https://github.com/chenhaoxing/ssformers}에서 확인할 수 있습니다.