측도 학습에 대한 통합적인 상호정보 관점: 교차 엔트로피 vs. 쌍별 손실

최근 딥 메트릭 학습(Depth Metric Learning, DML) 분야에서는 쌍별 거리(pairwise-distance) 손실 함수의 복잡한 설계에 대한 많은 연구 노력이 집중되어 왔으며, 이러한 손실 함수의 최적화를 용이하게 하기 위해 샘플 마이닝(sample mining)이나 쌍 가중치(pair weighting)와 같은 복잡한 전략이 필요하다. 반면 분류 문제에서 일반적으로 사용되는 교차 엔트로피(cross-entropy) 손실은 DML 분야에서 거의 무시되어 왔다. 표면적으로 보면 교차 엔트로피는 쌍별 거리를 명시적으로 다루지 않기 때문에 메트릭 학습과는 관련이 없다는 인상이 든다. 그러나 본 연구에서는 교차 엔트로피가 여러 잘 알려진 및 최신의 쌍별 손실 함수들과 이론적으로 연결됨을 제시한다. 이 연결은 두 가지 서로 다른 관점에서 도출된다: 하나는 명시적인 최적화 통찰에 기반하고, 다른 하나는 레이블과 학습된 특징 간 상호정보(mutual information)에 대한 구분적(discriminative) 및 생성적(generative) 시각이다.첫째, 우리는 교차 엔트로피가 새로운 쌍별 손실 함수에 대해 상한선(upper bound)임을 명시적으로 입증한다. 이 새로운 손실 함수는 다양한 쌍별 손실과 유사한 구조를 가지며, 내클래스 거리(minimize intra-class distances)를 최소화하고, 외클래스 거리(maximize inter-class distances)를 최대화하는 성질을 갖는다. 따라서 교차 엔트로피를 최소화하는 것은 이 쌍별 손실을 최소화하기 위한 근사적인 상한 최적화(algorithm) 또는 주대-최소화(Majorize-Minimize) 알고리즘으로 해석할 수 있다.둘째, 더 일반적인 관점에서 교차 엔트로피를 최소화하는 것은 실제로 상호정보를 최대화하는 것과 동치임을 보여준다. 이와 같은 관계를 통해 우리는 여러 잘 알려진 쌍별 손실 함수들을 연결할 수 있다. 또한, 다양한 표준 쌍별 손실 함수들이 상한 관계를 통해 명시적으로 서로 연결될 수 있음을 보여준다. 본 연구의 발견은 교차 엔트로피가 복잡한 샘플 마이닝 휴리스틱 기법 없이도, 쌍별 손실 함수들이 수행하는 것과 동일한 목적—즉, 상호정보를 극대화하는 것—을 대리(proxy)함을 시사한다.네 가지 표준 DML 벤치마크에서 수행한 실험 결과는 본 연구의 주장을 강력히 뒷받침한다. 교차 엔트로피 기반의 방법은 최근의 복잡한 DML 방법들을 포함한 기존의 최신 기법들을 초월하는 상태최고(SOTA) 성능을 달성하였다.