
실제 데이터는 종종 극심한 클래스 불균형을 보이는 긴 꼬리 분포(long-tailed distribution)를 나타내며, 이는 딥 레코그니션 모델에게 큰 도전 과제를 안긴다. 본 연구에서는 불균형 학습 환경에서 레이블의 가치에 대한 지속적인 딜레마를 식별한다. 한편으로는 레이블에 기반한 지도 학습이 비지도 학습보다 일반적으로 더 나은 성능을 제공함을 보여주지만, 다른 한편으로는 극심한 불균형 데이터는 분류기 내에서 '레이블 편향(label bias)'을 자연스럽게 유발하며, 이로 인해 다수 클래스에 의해 결정 경계가 극적으로 왜곡될 수 있다. 본 연구에서는 이러한 레이블의 두 가지 측면을 체계적으로 탐구한다. 이론적 및 실험적으로, 클래스 불균형 학습이 반지도 학습(semi-supervised) 및 자기지도 학습(self-supervised) 방식 모두에서 크게 이익을 볼 수 있음을 입증한다. 구체적으로, (1) 긍정적으로는 불균형 레이블이 유용함을 확인한다: 더 많은 무라벨 데이터가 존재할 경우, 원래의 레이블을 추가 데이터와 함께 활용함으로써 반지도 학습 방식으로 레이블 편향을 줄일 수 있으며, 이는 최종 분류기 성능을 크게 향상시킨다. (2) 반면 부정적으로는, 불균형 레이블이 항상 유용하지 않다고 주장한다: 자기지도 학습을 통해 사전 훈련된 분류기는 그에 해당하는 기준 모델보다 일관되게 뛰어난 성능을 보인다. 대규모 불균형 데이터셋을 대상으로 한 광범위한 실험을 통해, 본 연구에서 제안한 이론적으로 타당한 전략들이 이전 최고 수준의 기법들을 능가하는 우수한 성능을 보임을 확인하였다. 본 연구의 흥미로운 발견은 현실적인 긴 꼬리 분포 문제에서 불균형 레이블의 사용 방식을 재고할 필요성을 강조한다. 코드는 https://github.com/YyzHarry/imbalanced-semi-self 에서 제공된다.