
초록
시각적 유사성 학습은 일반적으로 이미지 3개의 트리플릿 간의 관계를 학습하는 것을 필요로 한다. 비록 트리플릿 기반 접근법이 강력하지만, 계산 복잡도의 한계로 인해 가능한 모든 트리플릿 중 일부만을 활용하여 학습이 이루어진다. 따라서 학습 과정에서 언제 어떤 학습 샘플을 사용할지를 결정하는 샘플링 전략이 매우 중요하다. 현재 널리 사용되는 전략은 학습 시작 전에 사전에 정의된 고정형 또는 커리큘럼 기반 샘플링 전략이다. 그러나 문제의 본질은 학습 중 시각적 유사성 표현의 실제 상태에 따라 동적으로 조정되는 샘플링 과정이 필요하다는 점이다. 본 연구에서는 강화학습을 활용하여, 학습자 네트워크(시각적 유사성 표현을 담당)의 현재 상태를 기반으로 교사 네트워크가 샘플링 분포를 동적으로 조정하도록 설계하였다. 기준 데이터셋에서 표준 트리플릿 기반 손실 함수를 사용한 실험 결과, 제안하는 적응형 샘플링 전략이 고정형 샘플링 전략보다 유의미하게 우수한 성능을 보였다. 더불어, 본 적응형 샘플링 전략은 기본 트리플릿 학습 프레임워크 위에만 적용되었음에도 불구하고, 다양한 추가 학습 신호나 강력한 앙상블 아키텍처를 도입한 최신 기술과 경쟁 가능한 성능을 달성하였다. 코드는 https://github.com/Confusezius/CVPR2020_PADS 에서 확인할 수 있다.