
초록
소수 샘플 영상 분류는 실제 응용에서 비용이 큰 레이블링 부담을 완화하기 위해 단지 몇 개의 레이블링된 예시만으로 새로운 영상 카테고리를 학습하는 것을 목표로 한다. 그러나 이러한 환경에서 클래스 불변의 공간-시간 표현을 학습하는 것은 특히 도전적인 과제이다. 이를 해결하기 위해 본 연구에서는 영상 시퀀스에 대한 새로운 매칭 기반 소수 샘플 학습 전략을 제안한다. 본 연구의 핵심 아이디어는 영상 쌍 간의 암묵적인 시간적 정렬을 도입함으로써, 보다 정확하고 강건한 방식으로 두 영상 간의 유사도를 추정하는 것이다. 또한, 공간적 정보와 특징 채널의 맥락을 효과적으로 통합하기 위해 효율적인 맥락 인코딩 모듈을 설계하여 클래스 내 변동성을 더 잘 모델링할 수 있도록 했다. 모델을 훈련하기 위해 영상 매칭을 학습할 수 있는 다중 작업 손실 함수를 개발하였으며, 이는 일반화 능력이 향상된 영상 특징을 얻는 데 기여한다. 두 개의 도전적인 벤치마크에서 실시한 광범위한 실험 결과를 통해, 제안한 방법은 SomethingSomething-V2에서 기존 기법 대비 상당한 성능 우위를 보였으며, Kinetics에서는 경쟁적인 성능을 달성함으로써 그 효과를 입증하였다.