
최근 비전 트랜스포머(Vision Transformers, ViTs)는 객체 탐지 및 세그멘테이션을 넘어서 시각적 매칭 분야에도 활용되고 있다. 그러나 기존 ViTs의 격자 분할 전략은 키포인트의 공간 정보를 무시함으로써 국소 정보에 대한 민감도가 제한된다. 이를 해결하기 위해 본 연구에서는 공간 정보 추출을 향상시키기 위해 교차 어텐션 모듈과 키포인트 기반 중심 자르기 전략을 채택한 QueryTrans(Query Transformer)를 제안한다. 또한 그래프 어텐션 모듈을 통합하여, 그래프 트랜스포머 기반의 그래프 매칭 접근법인 GMTR(Graph Matching TRansformers)를 개발하였으며, 이는 조합적 성질을 가진 그래프 매칭(GM) 문제를 그래프 트랜스포머 기반 신경망 솔버로 해결한다. 표준 GM 벤치마크에서 GMTR는 최신 기술(SOTA) 프레임워크들과 경쟁 가능한 성능을 보였다. 구체적으로, Pascal VOC에서 GMTR는 $\mathbf{83.6\%}$의 정확도를 달성하여 SOTA 프레임워크보다 $\mathbf{0.9\%}$ 높은 성능을 기록하였다. Spair-71k에서는 높은 잠재력을 보이며 대부분의 이전 연구들보다 우수한 성능을 나타냈다. 한편, Pascal VOC에서 QueryTrans는 NGMv2의 정확도를 $80.1\%$에서 $\mathbf{83.3\%}$로, BBGM의 정확도를 $79.0\%$에서 $\mathbf{84.5\%}$로 향상시켰다. Spair-71k에서는 NGMv2를 $80.6\%$에서 $\mathbf{82.5\%}$로, BBGM을 $82.1\%$에서 $\mathbf{83.9\%}$로 개선했다. 관련 소스 코드는 공개될 예정이다.