CATs: 시각적 대응을 위한 비용 집계 트랜스포머

우리는 대칭적으로 유사한 이미지 간의 밀도 높은 대응 관계를 찾기 위해, 클래스 내에서 큰 외형적 및 기하학적 변동성이라는 추가적인 도전 과제를 고려한 새로운 비용 집계 네트워크인 Cost Aggregation Transformers(CATs)를 제안한다. 비용 집계는 매칭 작업에서 매우 중요한 과정이며, 이 과정의 출력 품질에 따라 매칭 정확도가 결정된다. 기존의 수작업 또는 CNN 기반의 비용 집계 방법은 각각 심각한 왜곡에 대한 강건성이 부족하거나, 수용 영역이 제한된 CNN의 한계로 인해 잘못된 매칭을 구분하지 못하는 문제가 있다. 반면, CATs는 자기 주목(self-attention) 메커니즘을 최대한 활용할 수 있도록 설계된 아키텍처 요소들을 통해 초기 상관 맵 간의 전역 일치성(global consensus)을 탐색한다. 구체적으로, 노이즈가 많은 초기 상관 맵의 모호함을 제거하기 위해 외형적 유사성 모델링을 도입하고, 계층적 특징 표현에서 다양한 의미 정보를 효율적으로 포착하기 위해 다중 수준 집계(multi-level aggregation)를 제안한다. 또한, 스왑 자기 주목(swapping self-attention) 기법과 잔차 연결(residual connections)을 결합함으로써 일관된 매칭을 강제할 뿐만 아니라 학습 과정을 완화할 수 있으며, 이는 성능 향상이 두드러지게 나타남을 확인하였다. 제안된 모델의 효과성을 최신 기법들과의 비교 실험을 통해 입증하고, 광범위한 아브레이션(study) 분석을 제공한다. 프로젝트 페이지는 다음 링크에서 확인할 수 있다: https://sunghwanhong.github.io/CATs/.