
깊은 거리학습(DML)에서 정보를 제공하는 음성 샘플(음성 예시)을 탐색하는 것은 핵심적인 과제이지만, 이 작업은 미니배치 학습의 본질적 한계로 인해 제약을 받는다. 미니배치 학습에서는 각 반복(iteration)마다 단지 하나의 미니배치 내의 샘플들만 접근할 수 있기 때문이다. 본 논문에서는 모델 파라미터가 학습 과정 내내 업데이트됨에도 불구하고, 임베딩 특징들이 매우 느리게 변하는 '느린 드리프트'(slow drift) 현상을 관찰함으로써 이러한 한계를 극복할 수 있는 새로운 가능성을 제시한다. 이는 이전 반복에서 계산된 샘플의 특징이 현재 모델이 추출한 특징을 상당 부분 근사할 수 있음을 시사한다. 이를 바탕으로, 우리는 과거 반복의 임베딩을 기억하는 크로스배치 메모리(XBM) 메커니즘을 제안한다. 이 메커니즘을 통해 모델은 여러 미니배치에 걸쳐 충분한 하드 음성 쌍(hard negative pairs)을 수집할 수 있으며, 심지어 전체 데이터셋을 아우르는 범위에서도 가능하다. 제안한 XBM는 일반적인 쌍 기반 DML 프레임워크에 직접 통합할 수 있으며, XBM를 보완한 DML은 성능을 크게 향상시킬 수 있다. 특히, 복잡한 트릭 없이도 단순한 대조 손실(contrastive loss)에 XBM를 적용함으로써, 세 개의 대규모 이미지 검색 데이터셋에서 R@1 지표가 12%~22.5%까지 크게 향상되며, 가장 정교한 최신 기법들에 비해 상당한 성능 우위를 보인다. 본 XBM는 개념적으로 간단하고 구현이 용이하며, 몇 줄의 코드만으로 구현 가능하며, 메모리 효율성도 매우 뛰어나 추가 GPU 메모리 사용량이 극히 적은 0.2GB에 불과하다. 코드는 다음과 같은 링크에서 확인할 수 있다: https://github.com/MalongTech/research-xbm.