
초록
자기지도 대비 학습(self-supervised contrastive learning)은 시각적 표현 학습에서 큰 잠재력을 보여주고 있다. 다양한 하류 작업, 예를 들어 이미지 분류나 객체 탐지에서의 성공에도 불구하고, 미세한(granular) 시나리오에서의 자기지도 사전 학습은 여전히 충분히 탐색되지 않았다. 우리는 현재의 대비 학습 방법이 배경 또는 전경의 텍스처를 기억하기 쉬우며, 이로 인해 전경 객체의 정확한 위치 추정에 한계가 있음을 지적한다. 분석 결과, 미세한 자기지도 사전 학습을 위해서는 구분 가능한 텍스처 정보를 추출하는 것과 객체 위치 추정을 동시에 학습하는 것이 동등하게 중요함을 시사한다. 이러한 발견을 바탕으로, 우리는 새로운 시각 생성 방식으로 이미지의 주목 영역(saliency region)을 자르고 교환하는 방식을 도입한 ‘크로스뷰 주목성 정렬(Cross-View Saliency Alignment, CVSA)’이라는 대비 학습 프레임워크를 제안한다. 이 프레임워크는 크로스뷰 정렬 손실을 통해 모델이 전경 객체에 주목하도록 유도한다. 소규모 및 대규모 미세 분류 벤치마크에서 실시한 광범위한 실험 결과, CVSA가 학습된 표현 성능을 크게 향상시킴을 확인할 수 있었다.