16일 전

적은 샘플 세그멘테이션을 위한 밀도 높은 크로스-쿼리-애니-서포트 어텐션 가중 마스크 집계

Xinyu Shi, Dong Wei, Yu Zhang, Donghuan Lu, Munan Ning, Jiashun Chen, Kai Ma, Yefeng Zheng
적은 샘플 세그멘테이션을 위한 밀도 높은 크로스-쿼리-애니-서포트 어텐션 가중 마스크 집계
초록

소수 샘플 세분화(Few-shot Semantic Segmentation, FSS)에 대한 연구는, 타겟 클래스의 몇몇 레이블링된 지원 이미지(지원 샘플)만 제공되었을 때 쿼리 이미지 내의 타겟 객체를 세분화하는 것을 목표로 하여 큰 주목을 받고 있다. 이 도전적인 과제의 핵심은 쿼리 이미지와 지원 이미지 간의 세밀한 상관관계를 효과적으로 활용하여 지원 이미지 내 정보를 최대한 활용하는 것이다. 그러나 기존 대부분의 접근 방식은 지원 정보를 클래스별로 몇 개의 프로토타입으로 압축하거나, 픽셀 수준에서 지원 정보의 일부(예: 오직 전경만)를 사용함으로써 무시할 수 없는 정보 손실을 초래한다. 본 논문에서는 쿼리 및 지원 특징 간의 다수준 픽셀 수준 상관관계를 통해 전경과 배경 모두의 지원 정보를 보다 효과적으로 활용하는, 밀도 높은 픽셀 단위 쿼리-지원 간 상관관계 주의 기반 마스크 집계(Dense pixel-wise Cross-query-and-support Attention weighted Mask Aggregation, DCAMA)를 제안한다. DCAMA는 Transformer 아키텍처의 스케일된 도트 곱 주의(scaled dot-product attention)를 기반으로 구현되며, 각 쿼리 픽셀을 토큰으로 간주하고, 모든 지원 픽셀과의 유사도를 계산한 후, 해당 유사도에 따라 가중된 모든 지원 픽셀의 레이블을 가산적으로 집계하여 쿼리 픽셀의 세분화 레이블을 예측한다. DCAMA의 독특한 수식 구조를 바탕으로, 모든 지원 이미지의 픽셀을 한 번의 패스로 통합하여 마스크 집계를 수행하는 효율적이고 효과적인 n-샷 세분화를 위한 일괄 추론 기법을 제안한다. 실험 결과, PASCAL-5i, COCO-20i, FSS-1000과 같은 표준 FSS 벤치마크에서 DCAMA는 기존 최고 성능을 크게 초월하며, 1-샷 mIoU에서 각각 3.1%, 9.7%, 3.6%의 절대적 개선을 보였다. 추가 분석 실험을 통해 DCAMA의 설계가 효과적임을 확인할 수 있었다.

적은 샘플 세그멘테이션을 위한 밀도 높은 크로스-쿼리-애니-서포트 어텐션 가중 마스크 집계 | 최신 연구 논문 | HyperAI초신경