17일 전
야생 환경에서의 시각적 특징에 대한 자기지도 학습 전훈
Priya Goyal, Mathilde Caron, Benjamin Lefaudeux, Min Xu, Pengchao Wang, Vivek Pai, Mannat Singh, Vitaliy Liptchinsky, Ishan Misra, Armand Joulin, Piotr Bojanowski

초록
최근 MoCo, SimCLR, BYOL, SwAV와 같은 자기지도 학습(self-supervised learning) 방법들은 지도 학습 방법과의 격차를 줄여왔다. 이러한 성과들은 이미 매우 철저하게 정제된 ImageNet 데이터셋이라는 통제된 환경에서 달성되었다. 그러나 자기지도 학습의 핵심 전제는, 어떤 무작위 이미지든, 무제한의 데이터셋에서라도 학습이 가능해야 한다는 점이다. 본 연구에서는 이러한 전제가 실제 환경에서 성립하는지 검증하기 위해, 감독 신호 없이 무작위로 선택된 정제되지 않은 이미지 10억 장을 대상으로 대규모 모델을 훈련시켰다. 최종적으로 개발한 자기지도 학습 모델인 SElf-supERvised(SEER)은 13억 파라미터를 가진 RegNetY 아키텍처를 512개의 GPU를 사용해 10억 장의 무작위 이미지에 대해 훈련시켜, 상위 1위 정확도(top-1 accuracy) 84.2%를 달성하였다. 이는 기존 최고의 자기지도 사전학습 모델을 1% 이상 초과하며, 자기지도 학습이 실제 세계 환경에서도 성공적으로 작동함을 확인하는 결과이다. 흥미롭게도, 자기지도 학습 모델이 소수 샘플(few-shot) 학습 능력도 뛰어나다는 점을 관찰하였으며, ImageNet 데이터셋의 10%만 접근할 수 있는 조건에서도 상위 1위 정확도 77.9%를 달성하였다. 코드: https://github.com/facebookresearch/vissl