학습 가능한 다중 스케일 임베딩 및 어텐션 메커니즘을 통한 소수 샷 이미지 분류 향상

소수 샘플 분류(few-shot classification)의 맥락에서, 목표는 제한된 수의 샘플을 사용하여 만족스러운 성능을 유지하면서 분류기를 훈련시키는 것입니다. 그러나 전통적인 거리 기반 방법들은 이 목표를 달성하는 데 있어 특정 한계를 보입니다. 이러한 방법들은 일반적으로 쿼리 특징(query feature)과 지원 특징(support feature) 사이의 단일 거리 값에 의존하므로, 얕은 특징들의 기여도를 간과하게 됩니다. 이 문제를 해결하기 위해 본 논문에서는 새로운 접근법을 제안합니다. 우리의 접근법은 다중 출력 임베딩 네트워크(multi-output embedding network)를 활용하여 샘플들을 서로 다른 특징 공간으로 매핑하는 것을 포함합니다. 제안된 방법은 다양한 단계에서 특징 벡터를 추출하여 모델이 전역적이고 추상적인 특징들을 포착할 수 있도록 합니다. 이러한 다양한 특징 공간을 활용함으로써, 우리의 모델은 성능을 향상시킵니다. 또한 각 단계에서 자기 주의 메커니즘(self-attention mechanism)을 사용하면 각 단계의 특징 정제가 개선되어 더욱 강건한 표현과 전체적인 성능 향상을 가져옵니다. 더불어 각 단계에 학습 가능한 가중치(learnable weights)를 할당함으로써 성능과 결과가 크게 개선되었습니다.우리는 MiniImageNet 및 FC100 데이터셋에서 특히 5-클래스 1-샘플(5-way 1-shot) 및 5-클래스 5-샘플(5-way 5-shot) 시나리오에서 포괄적인 평가를 수행했습니다. 또한 여덟 개의 벤치마크 데이터셋 간의 크로스 도메인 작업(cross-domain tasks)을 수행하여 테스트 도메인에서 높은 정확도를 달성했습니다. 이러한 평가는 우리의 제안된 방법이 최신 기술(state-of-the-art approaches)과 비교해 효과적임을 입증합니다.https://github.com/FatemehAskari/MSENet