17일 전

ClusterFit: 시각적 표현의 일반화 성능 향상

Xueting Yan, Ishan Misra, Abhinav Gupta, Deepti Ghadiyaram, Dhruv Mahajan
ClusterFit: 시각적 표현의 일반화 성능 향상
초록

약한 지도 학습(weakly-supervised) 및 자기 지도 학습(self-supervised) 전략을 활용한 사전 학습 방식의 컨볼루션 신경망(Convolutional Neural Networks)은 여러 컴퓨터 비전 작업에서 점점 더 인기를 끌고 있다. 그러나 강한 구분 능력을 갖춘 신호가 부족함으로써, 이러한 방식으로 학습된 표현들은 사전 학습 목표(예: 해시태그 예측)에 과적합(overfitting)될 수 있으며, 이후 작업(downstream tasks)으로의 일반화 능력이 떨어질 수 있다. 본 연구에서는 사전 학습 과정에서 학습된 시각적 표현의 강건성(robustness)을 향상시키기 위한 간단한 전략인 ClusterFit(CF)을 제안한다. 주어진 데이터셋에 대해, (a) 사전 학습된 네트워크로부터 추출한 특징들을 k-means를 사용해 군집화하고, (b) 그 군집 할당 결과를 의사 레이블(pseudo-labels)로 활용하여 새로운 네트워크를 처음부터 재학습한다. 실증적으로, 군집화가 추출된 특징들에서 사전 학습 태스크에 특화된 정보를 감소시켜 과적합을 최소화함을 보여준다. 본 방법은 다양한 사전 학습 프레임워크(약한 지도 및 자기 지도 학습), 다양한 모달리티(이미지 및 영상), 그리고 사전 학습 태스크(객체 분류 및 행동 분류)에 확장 가능하다. 다양한 어휘와 세부 수준을 가진 11개의 타겟 데이터셋에서 수행한 광범위한 전이 학습 실험을 통해, ClusterFit가 기존의 대규모(수백만~수십억 개의 데이터를 활용한) 약한 지도 학습 이미지 및 영상 모델과 자기 지도 학습 이미지 모델에 비해 표현 품질을 크게 향상시킴을 입증하였다.