TransMatcher: Transformer를 활용한 깊은 이미지 매칭을 통한 일반화 가능한 사람 재식별

최근 트랜스포머(Transformer)는 컴퓨터 비전 분야에서 점차 더 많은 주목을 받고 있습니다. 그러나 기존 연구에서는 주로 이미지 분류와 밀집 예측 등 특징 표현 학습에 트랜스포머를 사용하고 있으며, 트랜스포머의 일반화 능력은 알려져 있지 않습니다. 본 연구에서는 이미지 쌍이 주어졌을 때 트랜스포머를 이미지 매칭과 메트릭 학습에 적용할 가능성에 대해 추가적으로 조사하였습니다. 우리는 비전 트랜스포머(Vision Transformer, ViT)와 디코더가 있는 일반적인 트랜스포머가 이미지 간의 어텐션(image-to-image attention)이 부족하여 이미지 매칭에 적합하지 않다는 것을 발견하였습니다. 따라서, ViT에서의 쿼리-갤러리 연결(query-gallery concatenation)과 일반적인 트랜스포머에서의 쿼리-갤러리 크로스 어텐션(query-gallery cross-attention)이라는 두 가지 단순한 해결책을 설계하였습니다. 후자는 성능 향상을 가져왔지만 여전히 제한적입니다. 이는 트랜스포머의 어텐션 메커니즘이 주로 전역 특징 집계(global feature aggregation)를 위해 설계되어 있어, 자연스럽게 이미지 매칭에 적합하지 않다는 것을 시사합니다.따라서, 우리는 소프트맥스 가중치(softmax weighting)를 포함한 전체 어텐션 구현(full attention implementation)을 제거하고, 쿼리-키 유사성 계산(query-key similarity computation)만 유지하는 새로운 단순화된 디코더를 제안합니다. 또한, 전역 최대 풀링(global max pooling)과 다층 퍼셉트론(Multilayer Perceptron, MLP) 헤드를 적용하여 매칭 결과를 디코딩합니다. 이렇게 하면 단순화된 디코더는 계산적으로 더욱 효율적이면서 동시에 이미지 매칭에 더욱 효과적입니다. 제안된 방법인 TransMatcher는 일반화 가능한 사람 재식별(person re-identification)에서 최신 수준의 성능을 달성하며, 여러 인기 있는 데이터셋에서 Rank-1 및 mAP 지표에서 각각 최대 6.1%와 5.7%의 성능 향상을 보였습니다.코드는 https://github.com/ShengcaiLiao/QAConv 에서 확인할 수 있습니다.