
장미 꼬리 분포(long-tailed distribution)는 실제 데이터에서 자주 나타나며, 많은 수의 소수 카테고리가 제한된 수의 샘플을 포함하는 경우에 해당합니다. 이러한 불균형 문제는 주로 균형 잡힌 학습 세트를 대상으로 설계된 표준 지도 학습 알고리즘의 성능을 크게 저하시킵니다. 최근 연구에서는 지도 대조 학습(supervised contrastive learning)이 데이터 불균형을 완화하는 데 유망한 잠재력을 보여주고 있음을 밝혔습니다. 그러나 지도 대조 학습의 성능은 본질적인 과제에 의해 제약받고 있습니다: 모든 카테고리를 포괄하는 대조 쌍을 구성하기 위해 충분히 큰 학습 데이터 배치(batch)가 필요하지만, 이 요구 사항은 클래스 불균형(class-imbalanced) 데이터 환경에서 충족시키기 어렵습니다. 이 장애물을 극복하기 위해, 우리는 각 클래스의 샘플들로부터 특성 공간(feature space)에서 데이터 분포를 추정하고, 이를 바탕으로 대조 쌍을 샘플링하는 새로운 확률적 대조(ProCo) 학습 알고리즘을 제안합니다. 실제로, 특히 불균형 데이터에서 작은 배치(batch)의 특성을 사용하여 모든 클래스의 분포를 추정하는 것은 가능하지 않습니다. 우리의 핵심 아이디어는 대조 학습에서 정규화된 특성이 단위 공간(unit space) 상의 von Mises-Fisher (vMF) 분포 혼합(mixture of von Mises-Fisher distributions)을 따르는 간단하면서도 타당한 가정을 도입하는 것입니다. 이 가정은 두 가지 이점을 제공합니다. 첫째, 분포 매개변수는 첫 번째 샘플 모멘트(first sample moment)만으로 추정할 수 있으며, 이를 통해 다른 배치들에 걸쳐 효율적으로 온라인 방식으로 계산할 수 있습니다. 둘째, 추정된 분포를 기반으로 vMF 분포는 무한히 많은 대조 쌍을 샘플링하고 효율적인 최적화를 위한 예상 대조 손실(expected contrastive loss)의 폐쇄 형식(closed form)을 도출할 수 있게 합니다. 우리의 코드는 https://github.com/LeapLabTHU/ProCo 에서 확인할 수 있습니다.