소수 샘플 세그멘테이션을 위한 자기 보정 크로스 어텐션 네트워크

소수 샘플 분할(few-shot segmentation, FSS)의 성공 핵심은 지원 샘플을 효과적으로 활용하는 방식에 있다. 대부분의 기존 방법들은 지원 샘플의 전경(FG) 특징을 프로토타입으로 압축하지만, 이 과정에서 일부 공간적 세부 정보가 손실된다. 반면, 일부 방법은 쿼리 특징과 압축되지 않은 지원 FG 특징을 교차 주의(cross attention)를 통해 융합한다. 쿼리 전경(FG)은 지원 FG와 융합될 수 있지만, 쿼리 배경(BG)은 지원 FG 내에서 대응되는 BG 특징을 찾을 수 없으며, 결과적으로 유사하지 않은 특징들을 무조건적으로 통합하게 된다. 게다가, 쿼리 FG와 BG가 모두 지원 FG와 결합되면서 서로 얽히게 되어, 효과적인 분할이 어렵게 된다. 이러한 문제를 해결하기 위해 우리는 자기 보정형 교차 주의(self-calibrated cross attention, SCCA) 블록을 제안한다. 효율적인 패치 기반 주의를 위해 먼저 쿼리 및 지원 특징을 패치로 분할한다. 그 후, 각 쿼리 패치가 가장 유사한 지원 패치와 정렬될 수 있도록 패치 정렬 모듈을 설계한다. 구체적으로, SCCA는 쿼리 패치를 Q로 취하고, 동일한 쿼리 이미지에서의 패치들과 지원 이미지에서 정렬된 패치들을 K&V로 그룹화한다. 이를 통해 쿼리 BG 특징은 대응되는 BG 특징(쿼리 패치로부터 유래)과 융합되며, 위에서 지적한 문제들이 완화된다. 또한 SCCA를 계산할 때, 유사도 계산을 위해 지원 특징을 보다 효과적으로 활용할 수 있도록 스케일링된 코사인 메커니즘을 도입하였다. PASCAL-5^i 및 COCO-20^i 데이터셋에서 실시한 광범위한 실험을 통해 제안 모델의 우수성을 입증하였으며, 특히 COCO-20^i에서 5샷 설정에서 기존 최고 성능 대비 mIoU 점수가 5.6% 이상 향상됨을 확인하였다. 코드는 https://github.com/Sam1224/SCCAN 에 공개되어 있다.