
초록
다수의 비전 작업에서 사실상의 접근 방식은 ImageNet에서 감독 학습을 통해 학습된 사전 훈련된 시각적 표현을 기반으로 시작하는 것이다. 최근의 방법들은 레이블이 없는 방대한 이미지 데이터에 확장하기 위해 비감독 사전 훈련을 탐구해왔다. 반면, 우리는 더 적은 수의 이미지로부터 고품질의 시각적 표현을 학습하는 데 목표를 두고 있다. 이를 위해 우리는 감독 사전 훈련을 다시 검토하며, 분류 기반 사전 훈련에 대한 데이터 효율적인 대안을 모색한다. 우리는 시각적 표현을 학습하기 위해 의미적으로 밀도 높은 캡션을 사용하는 VirTex라는 사전 훈련 방법을 제안한다. 우리는 COCO 캡션 데이터셋에서 컨볼루션 네트워크를 처음부터 훈련시키고, 이미지 분류, 객체 탐지, 인스턴스 세그멘테이션을 포함한 하류 인식 작업으로 전이한다. 모든 작업에서 VirTex는 ImageNet에서 학습된 표현(감독 또는 비감독)과 비슷하거나 이를 초월하는 특징을 제공하지만, 사용하는 이미지 수가 최대 10배까지 적다.