
초록
이 논문은 이미지 간 유사도를 더 정확하고 해석 가능한 방식으로 측정하기 위한 인과적 시각적 유사도 학습(Attributable Visual Similarity Learning, AVSL) 프레임워크를 제안한다. 기존의 대부분의 유사도 학습 방법은 거리 메트릭(예: 마할라노비스 거리, 유클리드 거리)을 사용하여 각 샘플을 임베딩 공간 내의 단일 점으로 매핑함으로써 해석 불가능성을 악화시킨다. 인간의 의미적 유사도 인지 방식을 영감으로 삼아, 두 이미지 간의 유사도를 그래프로 표현하는 보편적인 유사도 학습 프레임워크를 제안하며, 이를 바탕으로 전반적인 유사도를 추론한다. 또한, 의미 계층 일관성에 기반하여 하향식 유사도 추론과 상향식 유사도 구성 프레임워크를 구축한다. 먼저 신뢰할 수 없는 고차원 유사도 노드를 식별한 후, 가장 일관성이 높은 인접한 저차원 유사도 노드를 활용하여 이를 보정함으로써 유사도의 인과적 추적 가능성을 동시에 유지한다. CUB-200-2011, Cars196, Stanford Online Products 데이터셋에서 실시한 광범위한 실험 결과는 기존의 딥 유사도 학습 방법 대비 유의미한 성능 향상을 입증하며, 본 프레임워크의 해석 가능성도 확인한다. 코드는 https://github.com/zbr17/AVSL 에서 공개되어 있다.