
소수 샘플 분할(Few-shot segmentation, FSS)은 몇몇 레이블링된 지원 샘플을 기반으로 새로운 클래스에 대해 세그멘테이션을 수행하는 것을 목표로 한다. 최근의 기술 발전을 재고해보면, 현재의 FSS 프레임워크는 감독 세그멘테이션 프레임워크와 크게 벗어나고 있음을 발견할 수 있다. 깊이 있는 특징을 제공받은 상황에서, FSS 방법들은 복잡한 디코더를 사용하여 세밀한 픽셀 단위 매칭을 수행하는 반면, 감독 세그멘테이션 방법은 단순한 선형 분류 헤드를 사용한다. 디코더와 그 매칭 파이프라인의 복잡성으로 인해 이러한 FSS 프레임워크를 따르는 것은 쉽지 않다. 본 논문은 ‘특징 추출기 + 선형 분류 헤드’라는 간결한 프레임워크를 부활시키며, 새로운 특징-프록시 트랜스포머(FPTrans) 방법을 제안한다. 여기서 ‘프록시’는 선형 분류 헤드 내에서 특정 의미 클래스를 나타내는 벡터를 의미한다. FPTrans는 구분 가능한 특징과 대표적인 프록시를 학습하는 데 있어 두 가지 핵심 요소를 갖는다. 첫째, 제한된 지원 샘플을 효과적으로 활용하기 위해, 특징 추출기는 새로운 프롬프팅 전략을 통해 쿼리와 지원 특징을 하위에서 상위 레이어에 걸쳐 상호작용시킨다. 둘째, 배경은 균일하지 않으며 일부 새로운 전경 영역을 포함할 수 있으므로, 단일 배경 프록시 대신 다수의 국소적 배경 프록시를 사용한다. 이 두 가지 핵심 요소는 트랜스포머 내에 존재하는 프롬프팅 메커니즘과 함께 비전 트랜스포머 백본에 쉽게 통합될 수 있다. 학습된 특징과 프록시를 기반으로, FPTrans는 직접 코사인 유사도를 비교하여 세그멘테이션을 수행한다. 비록 프레임워크가 간단하지만, FPTrans는 최신 디코더 기반 방법과 비견되는 우수한 FSS 정확도를 달성함을 보여준다.