내 친구들의 도움으로: 시각적 표현의 근접 이웃 대비 학습

인스턴스 구분 기반의 자기지도 학습 알고리즘은 동일한 인스턴스에 대한 사전 정의된 변환에 대해 인코더가 불변(invariant)이 되도록 학습시킵니다. 대부분의 기법은 동일 이미지의 서로 다른 뷰를 대비 손실(constrastive loss)의 양성(positive)으로 다루는 반면, 우리는 데이터셋 내 다른 인스턴스로부터 양성을 사용하는 데 관심을 가지고 있습니다. 본 연구에서 제안하는 '근접 이웃 대비 학습을 통한 시각적 표현 학습(Nearest-Neighbor Contrastive Learning of visual Representations, NNCLR)'은 잠재 공간(latent space)에서 데이터셋의 근접 이웃을 샘플링하여 이를 양성으로 활용합니다. 이는 사전 정의된 변환보다 더 풍부한 의미적 다양성을 제공합니다.우리는 대비 손실에서 근접 이웃을 양성으로 사용할 경우 ImageNet 분류 과제에서 성능이 크게 향상됨을 발견했습니다. 정확도는 71.7%에서 75.6%로 상승하며, 기존 최고 성능 기법들을 능가했습니다. 반감독 학습 벤치마크에서는 ImageNet 레이블이 단 1%만 존재하는 조건에서도 성능이 크게 향상되어, 53.8%에서 56.5%로 개선되었습니다. 전이 학습 벤치마크에서는 12개의 하류 데이터셋 중 8개에서 기존 최고 수준의 기법(이미지넷을 활용한 감독 학습 포함)을 초월했습니다. 또한, 본 방법이 복잡한 데이터 증강 기법에 크게 의존하지 않는다는 점을 실증적으로 입증했습니다. 무작위 컷(random crops)만을 사용하여 학습했을 때 ImageNet Top-1 정확도 감소율이 단지 2.1%에 불과함을 관찰하였습니다.