
초록
이미지 간 대응 관계 설정은 시점 차이 또는 클래스 내 변동으로 인한 큰 외형 변화가 발생하는 상황에서 여전히 도전적인 과제로 남아 있다. 본 연구에서는 비전 분야에서 트랜스포머 네트워크의 성공을 기반으로, 강력한 의미론적 이미지 매칭 학습기인 TransforMatcher를 제안한다. 기존의 컨볼루션 기반 또는 어텐션 기반의 대응 방법과 달리, TransforMatcher는 정밀한 매칭 위치 추정과 동적 보정을 위해 전역적인 매칭-매칭 어텐션을 수행한다. 밀도 높은 상관 맵 내에서 발생하는 방대한 수의 매칭을 처리하기 위해, 전역적인 매칭 간 상호작용을 고려할 수 있는 경량 어텐션 아키텍처를 개발하였다. 또한, 다중 채널 상관 맵을 활용하여 보정하는 방안을 제안하며, 단일 스코어가 아닌 다수의 레벨별 스코어를 특징으로 간주함으로써 계층적 의미 정보를 보다 풍부하게 활용한다. 실험 결과, TransforMatcher는 SPair-71k 데이터셋에서 새로운 최고 성능(SOTA)을 달성하였으며, PF-PASCAL 데이터셋에서도 기존 SOTA 방법들과 동등한 성능을 보였다.