
초록
트리플릿 손실은 거리 메트릭 학습에서 매우 흔한 접근 방식이다. 동일한 클래스에 속한 이미지의 표현은 다른 클래스에 속한 이미지의 표현보다 임베딩 공간 내에서 더 가까워지도록 최적화된다. 트리플릿 손실에 관한 많은 연구는 고려할 가장 유용한 트리플릿(세 개의 이미지 쌍)을 선택하는 데 초점을 맞추고 있으며, 이는 동일한 클래스 내에서 비슷하지 않은 예시나 다른 클래스에서 유사한 예시를 선택하는 전략을 포함한다. 기존 연구의 합의된 견해는, 가장 어려운 음성 예시(negative examples)를 사용해 최적화할 경우 학습 성능이 나빠진다는 것이다. 이는 중요한 문제다. 왜냐하면 바로 이러한 가장 어려운 음성 예시들이 거리 메트릭이 의미적 유사성을 제대로 포착하지 못하는 경우이기 때문이다. 본 논문에서는 트리플릿의 공간을 체계적으로 분석하고, 왜 하드 음성 예시가 트리플릿 손실 학습을 실패하게 하는지에 대해 설명한다. 또한 손실 함수에 대한 간단한 수정안을 제안하며, 이 수정을 통해 하드 음성 예시를 활용한 최적화가 가능함을 보여준다. 이러한 개선은 더 일반화된 특징을 생성하며, 클래스 내 변동성이 높은 데이터셋에 대해 기존 최고 수준의 이미지 검색 성능을 뛰어넘는 결과를 얻을 수 있다.