구조적 매칭을 통한 해석 가능한 딥 메트릭 학습

신경망은 두 이미지를 어떻게 구분하는가? 감시 및 접근 제어와 같은 위험도가 높은 시각적 응용 분야에서 신뢰할 수 있는 지능형 시스템을 개발하기 위해서는 깊이 있는 모델의 매칭 메커니즘을 이해하는 것이 매우 중요하다. 그러나 기존의 대부분의 딥 메트릭 학습 방법은 특징 벡터를 비교함으로써 이미지를 매칭하므로, 이미지의 공간적 구조를 무시하게 되어 해석 가능성이 부족하다. 본 논문에서는 더 투명한 임베딩 학습을 위한 딥 해석 가능한 메트릭 학습(DIML, Deep Interpretable Metric Learning) 방법을 제안한다. 기존의 특징 벡터 비교에 기반한 전통적인 메트릭 학습 방식과 달리, 두 이미지의 특징 맵 사이의 최적 매칭 흐름(optimal matching flow)을 계산함으로써 공간적 임베딩을 명시적으로 정렬하는 구조적 매칭 전략을 제안한다. 본 방법은 깊이 있는 모델이 인간 친화적인 방식으로 메트릭을 학습할 수 있도록 하며, 두 이미지 간의 유사도를 여러 부분별 유사도로 분해하고, 각 부분의 기여도를 명확히 분석할 수 있도록 한다. 제안된 방법은 모델 독립적(모델-agnostic)이며, 사전에 구축된 백본 네트워크 및 메트릭 학습 방법에 쉽게 적용 가능하다. 우리는 CUB200-2011, Cars196, Stanford Online Products 등 세 가지 주요 딥 메트릭 학습 벤치마크에서 제안 방법을 평가하여, 기존의 인기 있는 메트릭 학습 방법들보다 뛰어난 성능 향상을 달성하면서도 해석 가능성을 향상시켰다. 코드는 https://github.com/wl-zhao/DIML 에서 제공된다.