얼굴 인식을 위한 구분력 있는 특징 공간을 향한 통합된 부정 쌍 생성

얼굴 인식(FR)의 목표는 긍정적인 쌍에 대한 유사성 집합 $\mathcal{S}^p$을 최대화하면서, 부정적인 쌍에 대한 유사성 집합 $\mathcal{S}^n$을 최소화하는 쌍 유사성 최적화 문제로 볼 수 있다. 이상적으로는 FR 모델이 $\inf{\mathcal{S}^p} > \sup{\mathcal{S}^n}$를 만족하는 잘 구분되는 특징 공간(WDFS)을 형성할 것으로 기대된다. WDFS와 관련하여, 기존의 딥 피처 학습 패러다임(즉, 메트릭 손실과 분류 손실)은 다양한 쌍 생성(PG) 전략에 대해 통합된 관점으로 표현될 수 있다. 그러나 메트릭 손실(ML)에서는 각 반복에서 모든 클래스를 고려하여 부정적인 쌍을 생성하는 것이 미니 배치 크기의 제한으로 인해 불가능하다. 반면, 분류 손실(CL)에서는 클래스 가중 벡터들이 중심으로 수렴하기 때문에 극도로 어려운 부정적인 쌍을 생성하는 것이 어렵다. 이는 샘플링된 쌍들의 두 개의 유사성 분포와 모든 부정적인 쌍들 간의 불일치를 초래한다. 따라서 본 논문에서는 이러한 불일치를 완화하기 위해 MLPG와 CLPG 두 가지 PG 전략을 통합된 관점에서 결합한 통합 부정 쌍 생성(UNPG) 방법을 제안한다. UNPG는 CLPG의 단점을 극복하기 위해 MLPG를 통해 부정적인 쌍에 대한 유용한 정보를 도입한다. 또한, 노이즈가 있는 부정적인 쌍들의 유사성을 필터링하여 안정적인 수렴과 성능 향상을 보장한다. 철저한 실험 결과는 공개 벤치마크 데이터셋에서 최근의 손실 함수들을 통해 UNPG의 우수성을 입증하며, 최신 기술 수준의 성능을 달성하였다. 우리의 코드와 사전 학습된 모델은 공개되어 있다.