
시각 인식 작업에서 소수 샘플 학습(few-shot learning)은 적은 수의 지원 예시(support examples)로 객체 카테고리를 학습할 수 있는 능력을 요구한다. 딥러닝의 발전과 함께 재부상한 이 기법은 주로 이미지 분류 분야에서 활발히 연구되고 있다. 본 연구는 여전히 거의 탐색되지 않은 분야인 소수 샘플 세분화(few-shot semantic segmentation)에 초점을 맞추고 있다. 최근의 몇 가지 진전은 종종 단일 클래스 소수 샘플 세분화에 국한되어 있다. 본 논문에서는 먼저 다중 방향(클래스) 인코딩 및 디코딩 아키텍처를 제안하며, 이는 다중 스케일 쿼리 정보와 다중 클래스 지원 정보를 하나의 쿼리-지원 임베딩(query-support embedding)으로 효과적으로 융합한다. 이 임베딩을 기반으로 다중 클래스 세분화를 직접 디코딩한다. 더 나은 특징 융합을 위해 아키텍처 내부에 다수준 주의 메커니즘(multi-level attention mechanism)을 도입하였으며, 이는 지원 특징 조절을 위한 주의 및 다중 스케일 정보 결합을 위한 주의를 포함한다. 마지막으로, 임베딩 공간 학습을 강화하기 위해 입력 이미지의 픽셀 수준 임베딩에 기반한 트리플릿 손실(triplet loss)을 활용한 추가적인 픽셀 수준 메트릭 학습 모듈을 도입하였다. 표준 벤치마크인 PASCAL-5i 및 COCO-20i에서 실시한 광범위한 실험을 통해 제안한 방법이 기존 최고 성능 기법 대비 명확한 성능 향상을 보임을 확인하였다.