자기 지도 표현 학습의 비효율성 해결

자기 감독 학습(특히 대조 학습)은 비지도 방식으로 차별화된 표현을 학습할 수 있는 큰 잠재력을 가지고 있어 많은 관심을 받고 있습니다. 그러나 기존의 대조 학습 방법들은 지도 학습과 유사한 인식 정확도를 얻기 위해서는 약 10배 더 많은 훈련 에폭이 필요하다는 점에서 매우 낮은 학습 효율성을 겪고 있습니다. 본 논문에서는 대조 학습에서 두 가지 모순적인 현상을 밝히며, 이를 '언더 클러스터링'과 '오버 클러스터링' 문제라고 명명합니다. 이 두 문제는 학습 효율성에 주요 장애물로 작용합니다. 언더 클러스터링은 대조 학습을 위한 음성 샘플 쌍이 모든 실제 객체 클래스를 구분하기에 부족할 때, 모델이 클래스 간 샘플들의 차이점을 효과적으로 학습하지 못하는 현상을 의미합니다. 오버 클러스터링은 과도한 음성 샘플 쌍으로부터 특징을 학습하지 못하여, 같은 실제 클래스의 샘플들을 다른 클러스터로 과도하게 분류시키는 현상을 의미합니다. 이러한 두 가지 문제를 동시에 해결하기 위해, 우리는 잘린 트리플트 손실(truncated triplet loss)을 사용하는 새로운 자기 감독 학습 프레임워크를 제안합니다. 구체적으로, 양성 쌍과 음성 쌍 사이의 상대적 거리를 최대화하려는 트리플트 손실을 활용하여 언더 클러스터링 문제를 해결하고, 베르누이 분포 모델(Bernoulli Distribution model)에 의해 보장되는 방식으로 모든 음성 샘플 중 하나를 선택하여 음성 샘플 대표(negative sample deputy)를 구성함으로써 오버 클러스터링 문제를 피합니다. 우리는 여러 대규모 벤치마크(예: ImageNet, SYSU-30k, COCO)에서 우리의 프레임워크를 광범위하게 평가하였습니다. 결과는 명백한 마진으로 최신 최첨단 방법들보다 우리 모델의 우수성을(예: 학습 효율성) 입증하였습니다. 코드는 다음 링크에서 제공됩니다: https://github.com/wanggrun/triplet .