4D 컨볼루션 스위ن 트랜스포머를 이용한 소수 샘플 세그멘테이션을 위한 비용 집계

본 논문은 소수 샘플 분할(few-shot segmentation)을 위한 새로운 비용 집계 네트워크인 볼륨형 집계 전환기(Volumetric Aggregation with Transformers, VAT)를 제안한다. 전환기(Transformer)의 사용은 전역 수용 영역을 통한 자기주의(self-attention)를 통해 상관 맵(correlation map)의 집계에 유리할 수 있다. 그러나 전환기 처리를 위해 상관 맵을 토큰화하는 과정은 해를 끼칠 수 있다. 토큰 경계에서의 불연속성은 토큰 가장자리 근처의 국소적 맥락을 감소시키며, 유도 편향(inductive bias)을 저하시키기 때문이다. 이러한 문제를 해결하기 위해, 고차원 Swin 전환기를 사전에 소형 컨볼루션 필터의 시리즈를 적용한 4차원 컨볼루션 Swin 전환기를 제안한다. 이 구조는 모든 픽셀에 국소적 맥락을 부여하고, 컨볼루션 기반의 유도 편향을 도입함으로써 토큰화로 인한 정보 손실을 완화한다. 또한, 계층적인 피라미드 구조 내에서 전환기를 적용함으로써 집계 성능을 추가로 향상시킨다. 더粗(코어스) 수준의 집계가 더 세밀(필니어) 수준의 집계를 안내하는 방식으로, 계층적 집계의 효과를 극대화한다. 전환기 출력에 포함된 노이즈는 이후 디코더에서 쿼리의 외형 임베딩(appearance embedding)을 활용하여 필터링된다. 본 모델을 통해 소수 샘플 분할의 모든 표준 벤치마크에서 새로운 최고 성능(state-of-the-art)을 달성하였다. 또한, 비용 집계가 핵심 역할을 하는 의미적 대응(semantic correspondence) 문제에서도 VAT가 최고 수준의 성능을 보임을 입증하였다.