
초록
패션 이미지 검색 작업은 쿼리 이미지와 관련된 의류 아이템을 갤러리에서 검색하는 것을 목표로 한다. 기존의 방법들은 다양한 거리 기반 손실 함수를 설계하여 관련된 이미지 쌍은 가까이, 비관련 이미지는 멀리 있도록 유도하는 데 초점을 맞추고 있다. 그러나 이러한 방법들은 의류 이미지의 세부적인 특징(예: 목단, 소매단)을 무시하는 경향이 있다. 본 논문에서는 전역적 특징과 세부적 특징을 동시에 활용하는 새로운 패션 이미지 검색 방법을 제안하며, 이를 다중 균질성 정렬(Multi-Granular Alignment, MGA)이라 명명한다. 구체적으로, 세부적인 패턴을 포착하고 집계하기 위한 세부적 아그리게이터(Fine-Granular Aggregator, FGA)를 설계하였으며, 거시적에서 미시적으로 나아가는 방식으로 이미지 특징을 다중 균질 수준에서 정렬하기 위해 주의 기반 토큰 정렬(Attention-based Token Alignment, ATA)을 제안하였다. 제안한 방법의 효과를 입증하기 위해 공개된 패션 데이터셋 DeepFashion의 두 하위 작업(인숍(In-Shop) 및 컨슈머투숍(Consumer2Shop))에서 실험을 수행하였다. 실험 결과, R@1 지표 기준으로 두 하위 작업에서 각각 기존 최고 성능 방법보다 1.8%, 0.6% 향상된 성능을 달성함으로써 MGA의 우수성을 입증하였다.