16일 전
마스킹된 크로스이미지 인코딩을 통한 소량 샘플 세그멘테이션
Wenbo Xu, Huaxi Huang, Ming Cheng, Litao Yu, Qiang Wu, Jian Zhang

초록
소수 샘플 세그멘테이션(Few-shot segmentation, FSS)은 미지의 클래스에 대해 단지 제한된 수의 레이블링된 이미지만을 사용하여 픽셀 단위의 레이블을 추론하는 밀도 예측 작업이다. FSS의 핵심 과제는 소수의 레이블링된 지원 예시(지원 이미지)로부터 학습된 클래스 프로토타입을 이용하여 쿼리 픽셀의 레이블을 분류하는 것이다. 기존의 FSS 접근 방식은 일반적으로 지원 이미지에서 클래스별 특징을 독립적으로 학습하는 데 집중하여, 지원-쿼리 특징 간의 풍부한 맥락 정보 및 상호 의존성 정보를 간과해왔다. 이러한 한계를 해결하기 위해, 객체의 세부 정보를 설명하는 공통 시각적 특성과 양방향의 이미지 간 상호의존성을 학습하여 특징 상호작용을 강화할 수 있도록 설계된 공동 학습 방법인 마스킹 크로스-이미지 인코딩(Masked Cross-Image Encoding, MCE)을 제안한다. MCE는 단순한 시각적 표현 강화 모듈을 넘어서, 이미지 간 상호 의존성과 암묵적 가이드라인을 고려한다. PASCAL-$5^i$와 COCO-$20^i$와 같은 FSS 벤치마크에서 수행된 실험을 통해 제안된 방법의 우수한 메타학습 능력이 입증되었다.