이미지 및 비디오 소프트 대조적 자기 지도 학습을 위한 유사성 대조적 추정

대조적 표현 학습은 이미지와 비디오에 대한 효과적인 자기 감독 학습 방법으로 입증되었습니다. 대부분의 성공적인 접근 방식은 노이즈 대조 추정(Noise Contrastive Estimation, NCE)을 기반으로 하며, 인스턴스의 다른 뷰를 긍정 샘플로 사용하여 이를 다른 인스턴스, 즉 노이즈로 간주되는 부정 샘플과 대조시킵니다. 그러나 데이터셋 내의 여러 인스턴스는 같은 분포에서 추출되며 공통의 의미론적 정보를 공유합니다. 좋은 데이터 표현은 인스턴스들 사이의 관계, 즉 의미론적 유사성과 차이성을 포함해야 하는데, 대조적 학습은 모든 부정 샘플을 노이즈로 취급함으로써 이러한 관계를 해칩니다. 이 문제를 해결하기 위해 우리는 인스턴스들 사이의 의미론적 유사성을 사용한 새로운 대조적 학습 공식인 유사성 대조 추정(Similarity Contrastive Estimation, SCE)을 제안합니다. 우리의 학습 목표는 긍정 샘플들을 가까워지게 하고, 학습된 유사성에 따라 부정 샘플들을 밀어내거나 당기는 연속 분포를 추정하는 부드러운 대조적 목표입니다. 우리는 이미지와 비디오 표현 학습에서 우리의 접근 방식을 경험적으로 검증하였습니다. 실험 결과, SCE는 ImageNet 선형 평가 프로토콜에서 적은 사전 훈련 에폭으로도 최신 연구 결과와 경쟁력을 보였으며, 여러 후속 이미지 작업에도 일반화할 수 있음을 확인하였습니다. 또한, SCE가 비디오 표현 사전 훈련에서 최신 연구 결과를 달성하며, 학습된 표현이 비디오 후속 작업에도 일반화될 수 있음을 보여주었습니다.