
다중 스케일 딥 CNN 구조 [1, 2, 3]는 시각적 유사성 작업에서 세부적인 이미지 설명자와 대략적인 이미지 설명자를 모두 성공적으로 포착하지만, 비싼 메모리 오버헤드와 지연 시간을 초래합니다. 본 논문에서는 이러한 문제를 해결하기 위해 MILDNet이라는 새로운 CNN 구조를 제안합니다. MILDNet은 기존 모델보다 약 3배 더 컴팩트한 장점을 가지고 있습니다. 연속된 CNN 레이어가 이미지를 점점 더 추상적인 수준으로 표현한다는 사실에 착안하여, 우리는 마지막 레이어와 함께 여러 중간 레이어의 활성화를 결합하여 깊은 순위 모델을 단일 CNN으로 압축했습니다.Street2shop 데이터셋 [4]에서 훈련된 결과, 우리의 접근 방식은 현재 최고 수준의 모델들과 동등한 성능을 보여주면서도 파라미터, 모델 크기, 훈련 시간이 각각 1/3로 줄어들고 추론 시간도 크게 단축되었습니다. 또한 중간 레이어들의 이미지 검색 작업에서의 중요성을 Holidays, Oxford, Paris [5] 등 유명한 데이터셋에서 실험을 통해 입증하였습니다. 따라서 우리 실험은 전자 상거래 분야에서 이루어졌지만 다른 분야에도 적용할 수 있습니다.우리는 추가로 각 중간 레이어를 추가함으로써 영향을 확인하는 아블레이션 연구를 수행하여 가설을 검증하였습니다. 이를 통해 MILDNet의 두 가지 유용한 변형 모델도 제시합니다: 에지 디바이스용 모바일 모델(약 12배 작음)과 RAM이 적은 시스템 및 순위 결정 비용을 줄이는 데 사용되는 컴팩트한 특징 모델(512차원 피처 임베딩).또한 우리는 수동으로 생성하기 어려운 맞춤형 내부 트립렛 훈련 데이터셋을 자동으로 생성하는 직관적인 방법도 제시합니다. 이 솔루션 역시 종합적인 시각적 유사성 솔루션으로 배포될 수 있습니다. 마지막으로, Fynd에서 현재 시각적 유사성을 지원하고 있는 전체 프로덕션 수준의 아키텍처를 소개합니다.