
소수 샘플 세분화(Few-shot Semantic Segmentation, FSS)는 쿼리 이미지 내에서 미리 보지 않은 클래스를 세분화하는 것을 목표로 하며, 지원 이미지(support images)로 불리는 몇 개의 레이블링된 예시만을 참조한다. FSS의 주요 특징 중 하나는 쿼리 이미지와 지원 이미지 간의 공간적 일관성 부족이다. 예를 들어 질감이나 외형 측면에서 차이가 존재할 수 있다. 이러한 차이는 FSS 방법의 일반화 능력에 큰 도전을 주며, 쿼리 이미지와 지원 예시 간의 상호의존성을 효과적으로 활용할 수 있어야 한다는 요구를 강하게 한다. 기존 대부분의 방법들은 지원 특징을 프로토타입 벡터로 추상화하고, 쿼리 특징과의 상호작용을 코사인 유사도 또는 특징 연결을 통해 구현한다. 그러나 이러한 단순한 상호작용 방식은 쿼리 특징 내부의 공간적 세부 정보를 충분히 포착하지 못할 수 있다. 이 제한을 완화하기 위해 일부 연구들은 Transformer의 어텐션 메커니즘을 활용해 쿼리 특징과 지원 특징 간의 픽셀 단위 상관관계를 계산함으로써 모든 픽셀 수준의 지원 정보를 활용하는 접근법을 제안했다. 그러나 이러한 방법은 지원 특징과 쿼리 특징의 모든 픽셀 간 내적 곱 어텐션 계산으로 인해 계산 부담이 매우 크다는 단점이 있다. 본 논문에서는 이러한 문제를 해결하기 위해 Transformer 기반의 간단하면서도 효과적인 프레임워크인 ProtoFormer을 제안한다. ProtoFormer은 지원 특징 내에서 추상화된 타깃 클래스의 프로토타입을 Query로, 쿼리 특징을 Key 및 Value 임베딩으로 간주하여 Transformer 디코더에 입력한다. 이를 통해 쿼리 특징 내의 공간적 세부 정보를 보다 효과적으로 포착하고, 쿼리 이미지 내 타깃 클래스의 의미적 특징에 집중할 수 있다. Transformer 기반 모듈의 출력은 풍부해진 쿼리 특징에서 세그멘테이션 마스크를 추출하기 위한 의미 인식 동적 커널(dynamic kernel)으로 해석할 수 있다. PASCAL-$5^{i}$ 및 COCO-$20^{i}$ 데이터셋에서 실시한 광범위한 실험 결과, 본 연구에서 제안한 ProtoFormer이 기존 최고 성능 기법들을 크게 초월함을 입증하였다.