
일반화된 소수 샘플 기반 의미 분할 (Generalized Few-shot Semantic Segmentation, GFSS)은 각 이미지 픽셀을 풍부한 학습 예제를 가진 기본 클래스 또는 클래스당 극히 적은 수의 (예: 1-5개) 학습 이미지를 가진 새로운 클래스로 분할하는 것을 목표로 합니다. 소수 샘플 기반 의미 분할 (Few-shot Semantic Segmentation, FSS)이 새로운 클래스만 분할하는 데 초점을 맞추어 널리 연구되어 왔다면, GFSS는 더 실용적이지만 그에 비해 연구가 부족한 상태입니다. 기존의 GFSS 접근 방식은 새로 학습된 새로운 클래스 분류기와 사전 학습된 기본 클래스 분류기를 결합하여 새로운 분류기를 형성하는 분류기 매개변수 융합 방법을 기반으로 합니다. 학습 데이터가 기본 클래스에 의해 지배되는 경우 이 접근 방식은 필연적으로 기본 클래스에 편향됩니다. 본 연구에서는 이러한 문제를 해결하기 위해 새로운 예측 교정 네트워크 (Prediction Calibration Network, PCN)를 제안합니다. 분류기 매개변수를 융합하는 대신, 기본 및 새로운 분류기가 각각 생성한 점수를 융합합니다. 융합된 점수가 기본 클래스나 새로운 클래스 중 어느 쪽에도 편향되지 않도록 하기 위해 새롭게 트랜스포머 기반 교정 모듈을 도입하였습니다. 저레벨 특징이 고레벨 특징보다 입력 이미지의 엣지 정보 감지를 위한 유용함이 알려져 있습니다. 따라서, 우리는 융합된 다중 레벨 특징을 사용하여 분류기의 최종 예측을 안내하는 크로스 어텐션 모듈을 구축하였습니다.그러나 트랜스포머는 계산적으로 요구가 많습니다. 특히, 제안된 크로스 어텐션 모듈이 픽셀 단위에서 학습 가능하도록 하기 위해서는 이 모듈이 피처-점수 크로스 공분산에 기반하여 설계되며, 추론 시 일반화될 수 있도록 에피소드적으로 학습됩니다. PASCAL-$5^{i}$ 및 COCO-$20^{i}$ 데이터셋에서 수행된 광범위한 실험 결과, 우리의 PCN이 최신 대안들보다 크게 우월함을 보여주었습니다.