
초록
우리는 감독 학습의 annotation 확장성 문제와 자기지도 학습의 계산 확장성 문제를 겪지 않는 웹 기반의 감독 표현 학습 방법을 제안한다. 기존 웹 기반 감독 표현 학습 연구 대부분은 학습 데이터 내 흔히 존재하는 노이즈를 고려하지 않은 단순 감독 학습 방식을 채택하고 있으며, 레이블 노이즈를 다루는 기존 방법들은 실세계의 대규모 노이즈 데이터에 대해 상대적으로 효과적이지 않다. 본 연구에서는 온라인 레이블 노이즈 보정, 분포 외 샘플 제거, 그리고 표현 학습을 동시에 달성하는 간단한 대비 학습 방법인 모멘텀 프로토타입(MoPro)을 제안한다. MoPro는 약한 레이블과 노이즈가 포함된 웹 기반 데이터셋인 WebVision에서 최신 기준 성능을 달성하며, 사전 훈련된 모델을 하류의 이미지 분류 및 탐지 작업에 전이할 때도 뛰어난 성능을 보인다. VOC에서 1샷 분류(task)에서 ImageNet 감독 사전 훈련 모델보다 +10.5점 높은 성능을 기록하며, ImageNet 레이블 데이터의 1%만을 사용해 미세 조정(finetuning)했을 때도 최고의 자기지도 사전 훈련 모델보다 +17.3점 높은 성능을 나타낸다. 더불어 MoPro는 분포 변화에 대해 더 뛰어난 로버스트성을 보여준다. 코드와 사전 훈련 모델은 https://github.com/salesforce/MoPro에서 제공된다.