
자기지도 학습(self-supervised learning, SSL)은 레이블 없이도 일반적인 시각적 표현을 학습할 수 있다는 점에서 확장성이 뛰어난 방법이다. 그러나 현실 세계에서 활용 가능한 대규모 비라벨 데이터셋은 종종 긴 꼬리(long-tailed) 레이블 분포를 보이며, 이 경우 SSL의 행동에 대해 이해하는 데 한계가 있다. 본 연구에서는 데이터셋 불균형 하에서 자기지도 학습의 특성을 체계적으로 탐구한다. 먼저, 광범위한 실험을 통해 기존의 자기지도 학습 표현은 감독 학습 표현보다 클래스 불균형에 더 강건함을 발견하였다. SSL을 활용한 균형 및 비균형 사전 학습 간의 성능 차이는, 도메인 내 및 특히 도메인 외 평가에서, 다양한 샘플 크기와 관계없이 감독 학습에 비해 훨씬 작았다. 두 번째로, SSL의 강건성에 대한 이해를 위해, 우리는 흔한 데이터로부터 더 풍부한 특징을 학습하기 때문에 SSL이 희귀 클래스와 하류 작업을 분류하는 데 도움이 되는 레이블과 무관하지만 전이 가능한 특징을 학습할 수 있다고 가정한다. 반면, 감독 학습은 흔한 예시에서 레이블과 무관한 특징을 학습할 동기가 없다. 우리는 간단한 설정에서 반합성 실험과 이론적 분석을 통해 이 가설을 검증하였다. 세 번째로, 이론적 통찰을 바탕으로, 여러 평가 기준에서 비균형 데이터셋 상에서 SSL 표현의 품질을 지속적으로 향상시키는 재가중 정규화 기법을 제안하였다. 이 기법은 동일한 예시 수를 가진 균형과 비균형 데이터셋 간의 작은 성능 차이를 효과적으로 줄였다.