Wave-SAN: 도메인 간 소수 샘플 학습을 위한 웨이블릿 기반 스타일 증강 네트워크

이전의 소수 샘플 학습(FSL) 연구들은 주로 일반적인 개념과 카테고리에 대한 자연 이미지에 국한되어 왔다. 이러한 연구들은 원천 클래스와 대상 클래스 간에 매우 높은 시각적 유사성을 전제로 한다. 반면에 최근 제안된 도메인 간 소수 샘플 학습(CD-FSL)은 수많은 레이블이 있는 일반적인 자연 이미지에서 레이블이 몇 개만 있는 새로운 도메인 특화 대상 카테고리로 지식을 전이하는 것을 목표로 한다. CD-FSL의 핵심 과제는 원천 도메인과 대상 도메인 간에 큰 데이터 분포 변화가 존재한다는 점으로, 이는 일반적으로 완전히 다른 시각적 스타일 형태로 나타난다. 이러한 특성은 기존의 전통적인 FSL 방법을 그대로 CD-FSL 작업에 적용하는 데 매우 큰 도전을 제기한다. 이를 해결하기 위해 본 논문은 원천 데이터셋의 스타일 분포를 포괄하는 방식으로 CD-FSL 문제를 탐구한다. 특히 웨이블릿 변환을 도입하여 시각적 표현을 저주파 성분(예: 형태와 스타일)과 고주파 성분(예: 질감)으로 분해할 수 있도록 한다. 본 모델이 시각적 스타일에 대해 강건하도록 하기 위해, 원천 이미지의 저주파 성분들 간에 스타일을 교체하여 이미지 증강을 수행한다. 이 아이디어를 구현하기 위해 새로운 스타일 증강(StyleAug) 모듈을 제안한다. 또한, 스타일 증강된 이미지의 예측이 원본 이미지와 의미적으로 유사하도록 보장하기 위해 자기지도 학습(SSL) 모듈을 제안한다. 이는 스타일 교환 과정에서 발생할 수 있는 의미적 편차(semantic drift) 문제를 방지한다. 두 개의 CD-FSL 벤치마크에서 실시한 광범위한 실험을 통해 본 방법의 효과성을 입증하였다. 본 논문의 코드와 모델은 공개될 예정이다.