소수 샘플 세그멘테이션을 위한 비용 집계는 오직 그것만으로도 충분하다

저희는 쿼리와 서포트 간의 고차원 상관 맵을 효율적으로 처리하기 위해 컨볼루션과 트랜스포머를 결합하여 사용하는 새로운 비용 집계 네트워크, 즉 볼륨적 집계를 위한 트랜스포머(Volumetric Aggregation with Transformers, VAT)를 제안합니다. 특히, 본 논문에서는 볼륨 임베딩 모듈과 볼륨 트랜스포머 모듈로 구성된 인코더를 제안합니다. 볼륨 임베딩 모듈은 상관 맵을 더 다루기 쉬운 크기로 변환함과 동시에 일부 컨볼루션 기반의 유도 편향(inductive bias)을 도입하며, 볼륨 트랜스포머 모듈은 비용 집계를 수행합니다. 본 인코더는 계층적인 피라미드 구조를 가지며, 더 거친 수준의 집계가 더 세밀한 수준의 집계를 안내하도록 하여 보완적인 매칭 점수를 학습하도록 유도합니다. 이후, 인코더의 출력을 투영된 특징 맵과 함께 유사도 인지형 디코더에 입력하여 세그멘테이션 과정을 안내합니다. 이러한 구성 요소들을 결합하여 실험을 수행한 결과, 제안한 방법이 소수 샘플 세그멘테이션 태스크에서 모든 표준 벤치마크에서 새로운 최고 성능(SOTA, State-of-the-Art)을 달성함을 입증하였습니다. 또한, 본 방법은 특별히 이 작업에 최적화되지 않았음에도 불구하고, 세분적 대응(semantic correspondence) 태스크의 표준 벤치마크에서도 뛰어난 성능을 기록함을 발견하였습니다. 더불어 아블레이션 스터디를 통해 제안된 아키텍처 선택의 타당성을 광범위하게 검증하였습니다. 학습된 가중치와 코드는 다음 주소에서 제공됩니다: https://seokju-cho.github.io/VAT/.