프리트레이닝과 세프트레이닝의 재고

전처리 학습은 컴퓨터 비전 분야에서 주도적인 패러다임이다. 예를 들어, 감독 학습 기반의 ImageNet 전처리 학습은 객체 탐지 및 세그멘테이션 모델의 백본 초기화에 널리 사용된다. 그러나 He 등은 ImageNet 전처리 학습이 COCO 객체 탐지 성능에 미치는 영향이 제한적임을 놀라운 결과로 보여주었다. 본 연구에서는 동일한 설정에서 추가 데이터를 활용하는 또 다른 방법으로 자가 학습(self-training)을 탐구하고, ImageNet 전처리 학습과의 성능을 비교하였다. 본 연구는 자가 학습의 일반성과 유연성을 세 가지 추가적인 통찰을 통해 입증한다. 첫째, 더 강력한 데이터 증강 기법과 더 많은 레이블 데이터를 사용할수록 전처리 학습의 가치가 더욱 감소한다. 둘째, 전처리 학습과 달리, 자가 학습은 강력한 데이터 증강을 사용할 경우 저데이터 및 고데이터 환경 모두에서 항상 유익하다. 셋째, 전처리 학습이 도움이 되는 경우에도 자가 학습은 전처리 학습을 개선한다. 예를 들어, COCO 객체 탐지 데이터셋에서 레이블 데이터의 1/5만 사용할 때 전처리 학습은 성능 향상에 기여하지만, 전체 레이블 데이터를 사용할 경우 정확도를 저하시킨다. 반면 자가 학습은 모든 데이터셋 크기에서 +1.3에서 +3.4AP까지 긍정적인 성능 향상을 보였다. 즉, 자가 학습은 전처리 학습이 효과를 발휘하지 못하는 동일한 설정—즉, ImageNet을 사용해 COCO에 도움을 주는 상황—에서 특히 잘 작동함을 보여준다. PASCAL 세그멘테이션 데이터셋은 COCO보다 훨씬 작은 데이터셋이지만, 전처리 학습이 상당한 성능 향상을 가져오긴 하지만, 자가 학습은 전처리 모델을 더 뛰어넘는 성능을 달성한다. COCO 객체 탐지에서는 SpineNet 모델 중 가장 강력한 모델보다 +1.5AP 향상된 54.3AP를 달성하였으며, PASCAL 세그멘테이션에서는 기존 최고 성능인 DeepLabv3+보다 +1.5% mIOU 향상된 90.5 mIOU를 기록하였다.