15일 전
MSDNet: Transformer 가이드 프로토타이핑을 통한 소수 샘플 세분화를 위한 다중 규모 디코더
Fateh, Amirreza, Mohammadi, Mohammad Reza, Motlagh, Mohammad Reza Jahed

초록
소수 샘플 세분화(Few-shot Semantic Segmentation)는 쿼리 이미지 내 객체를 단 몇 개의 레이블링된 예시만으로 분할하는 과제를 다룹니다. 그러나 기존의 대부분의 최첨단 기법들은 복잡한 국소적 의미 특징을 무시하거나 높은 계산 복잡도에 직면하는 문제가 있었습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 트랜스포머 아키텍처 기반의 새로운 소수 샘플 세분화 프레임워크를 제안합니다. 제안하는 방법은 지원 이미지와 쿼리 이미지 간의 관계적 이해를 향상시키기 위해 공간적 트랜스포머 디코더와 맥락적 마스크 생성 모듈을 도입합니다. 또한, 계층적으로 다양한 해상도의 특징을 통합함으로써 세분화 마스크를 정교화하는 다중 해상도 디코더를 제안합니다. 더불어, 중간 인코더 단계에서 추출한 전역적 특징을 통합함으로써 맥락 이해를 향상시키면서도, 경량 구조를 유지하여 복잡도를 낮추는 것이 가능합니다. 이러한 성능과 효율성의 균형을 통해, 본 방법은 PASCAL-5^i 및 COCO-20^i와 같은 기준 데이터셋에서 1샷 및 5샷 설정 모두에서 경쟁력 있는 성능을 달성합니다. 특히, 단 150만 개의 파라미터를 가진 본 모델은 기존 방법론의 한계를 극복하면서도 뛰어난 성능을 보여줍니다.https://github.com/amirrezafateh/MSDNet