컨텍스추얼 스콰이즈 앤 익사이트이션을 활용한 효율적인 소수 샘플 이미지 분류

최근 몇 년 동안, 낮은 데이터 환경에서 작업 간 효과적인 지식 전이가 요구되는 사용자 중심 응용 프로그램의 수요가 증가하고 있다. 대표적인 사례로는 개인화(personalization)가 있으며, 이는 특정 사용자의 소량의 레이블 데이터를 기반으로 미리 학습된 시스템을 적응시키는 방식이다. 이러한 설정에서는 낮은 계산 복잡도 하에서도 높은 정확도를 달성해야 하므로, 정확도와 적응 비용 간의 파레토 최적 경계(Pareto frontier)가 핵심적인 역할을 한다. 본 논문에서는 소수 샘플 이미지 분류(few-shot image classification) 환경에서 새로운 핵심 기여를 통해 이 파레토 최적 경계를 한층 더 앞당긴다. 그 핵심은 새로운 적응 블록인 '컨텍스트 스쿼즈 앤 엑사이테이션(Contextual Squeeze-and-Excitation, CaSE)'의 도입이다. CaSE는 사용자 데이터(컨텍스트)를 단 한 번의 전방 전파(forward pass)만으로 미리 학습된 신경망을 새로운 작업에 효과적으로 적응시켜 성능을 크게 향상시킨다. 본 연구에서는 메타-학습된 CaSE 블록을 활용하여 네트워크 본체를 조건부로 적응시키고, 선형 헤드는 미세 조정(fine-tuning) 절차를 통해 적응시켜, 이를 'UpperCaSE'라고 명명한 방법을 제안한다. UpperCaSE는 VTAB+MD의 26개 데이터셋과 도전적인 실세계 개인화 벤치마크인 ORBIT에서 기존 메타-러닝 기반 모델들에 비해 새로운 최고 성능을 달성하며, 미세 조정 기법의 최고 수준에 근접한 성능을 보이되, 적응 비용은 수 배에서 수십만 배까지 낮춘다는 점에서 큰 이점을 제공한다.