
초록
본 연구는 새로운 손실 함수, 배치 크기, 그리고 새로운 정규화 방법 간의 상호작용을 탐구함으로써 검색을 위한 깊은 시각적 표현 모델을 학습하는 데 집중한다. 검색에서의 재현율(recall)과 같은 평가 지표는 비미분 가능(non-differentiable)하기 때문에, 그에 대한 직접적인 경사 하강법(gradient descent) 최적화는 불가능하다. 본 연구에서는 재현율을 위한 미분 가능한 대체 손실 함수(surrogate loss)를 제안한다. GPU 메모리의 하드웨어 제약을 회피하는 구현 방식을 사용함으로써, 전체 검색 데이터베이스 기반의 지표 계산에 필수적인 매우 큰 배치 크기로 학습이 가능해진다. 또한, 쌍별 스칼라 유사도(pairwise scalar similarities)를 기반으로 작동하는 효율적인 미스업(mixup) 정규화 기법이 배치 크기를 더욱 가상으로 확대하는 데 도움을 준다. 제안된 방법은 깊은 거리 측정 학습(deep metric learning)에 활용되었을 때, 여러 이미지 검색 벤치마크에서 최신 기준(SOTA, state-of-the-art) 성능을 달성한다. 예를 들어, 개별 레벨의 인식(task)에서는 평균 정밀도(average precision)의 근사값을 사용해 학습하는 유사한 접근법들보다 우수한 성능을 보여준다.