13일 전
분할 및 대비: 정제되지 않은 데이터로부터의 자기지도 학습
Yonglong Tian, Olivier J. Henaff, Aaron van den Oord

초록
자기지도 학습은 무라벨 데이터의 방대한 양을 활용할 수 있다는 잠재력을 지니고 있으나, 현재까지의 발전은 대부분 ImageNet과 같은 매우 철저하게 정제된 사전 학습 데이터에 국한되어 있다. 본 연구에서는 더 크고 덜 정제된 이미지 데이터셋(예: YFCC)에서의 대조 학습(contrastive learning)이 미치는 영향을 탐구하고, 결과적으로 얻어지는 표현 품질에 실제로 큰 차이가 있음을 발견하였다. 우리는 이러한 정제 수준의 격차가 이미지 클래스의 분포 변화—더 다양하고 꼬리가 긴 분포(tail-heavy distribution)—로 인해 학습에 적합하지 않은 부정 샘플(negative samples)이 증가함에 따라 발생한다고 가정한다. 이를 검증하기 위해, 대조 학습과 군집 기반의 어려운 부정 샘플 탐색(hard negative mining)을 번갈아 수행하는 새로운 접근법인 Divide and Contrast(DnC)를 제안한다. 덜 정제된 데이터셋에서 사전 학습할 경우, DnC는 다운스트림 작업에서 자기지도 학습의 성능을 크게 향상시키며, 동시에 정제된 데이터셋에서 현재 최고 수준의 성능과도 경쟁 가능함을 보여준다.