
초록
클래스 레이블이 주어진 데이터로 훈련된 신경망 분류기는 지시되지 않았음에도 불구하고 카테고리 간의 명백한 시각적 유사성을 포착할 수 있다. 본 연구에서는 이러한 관찰 결과가 전통적인 지도학습 영역을 넘어서는지 여부를 탐구한다. 즉, 단지 개별 인스턴스를 구분할 수 있도록 특징을 학습시키는 것만으로도 인스턴스 간의 명백한 유사성을 포착하는 효과적인 특징 표현을 학습할 수 있는가? 우리는 이 직관을 인스턴스 수준에서 비모수적 분류 문제로 공식화하고, 수많은 인스턴스 클래스로 인해 발생하는 계산적 과제를 해결하기 위해 노이즈 대조 추정(Noise-Contrastive Estimation) 기법을 활용한다. 실험 결과, 비지도 학습 설정 하에서 본 방법은 ImageNet 분류에서 기존 최고 성능 기법을 크게 상회함을 입증하였다. 또한 본 방법은 더 많은 훈련 데이터와 더 우수한 네트워크 아키텍처를 사용할수록 일관되게 테스트 성능을 향상시킨다는 점에서 뛰어나다. 학습된 특징을 미세 조정(fine-tuning)함으로써, 반지도 학습 및 객체 탐지 과제에서도 경쟁력 있는 성과를 달성할 수 있다. 본 비모수적 모델은 매우 컴팩트하다. 이미지당 128개의 특징을 사용할 경우, 100만 장의 이미지를 저장하는 데 단 600MB의 저장 공간만 필요하며, 실행 시 빠른 최근접 이웃 검색이 가능하다.