자연어 감독을 통한 전이 가능한 시각 모델 학습

최신 컴퓨터 비전 시스템은 사전에 정해진 고정된 객체 범주를 예측하도록 훈련됩니다. 이러한 제한적인 감독 방식은 추가적인 라벨링 데이터가 필요한 다른 시각적 개념을 지정하는 데 있어 일반성과 사용성을 제한합니다. 이미지에 대한 원시 텍스트에서 직접 학습하는 것은 훨씬 더 넓은 감독 출처를 활용하는 유망한 대안입니다. 우리는 인터넷에서 수집한 4억 개의 (이미지, 텍스트) 쌍 데이터셋을 사용하여 어떤 캡션이 어떤 이미지와 연결되는지를 예측하는 간단한 사전 학습 작업이 SOTA(SOTA: State-of-the-Art) 이미지 표현을 처음부터 효율적이고 확장 가능하게 학습할 수 있는 방법임을 보여줍니다. 사전 학습 후, 자연어는 학습된 시각적 개념을 참조하거나(또는 새로운 것을 설명하여) 모델의 다운스트림 작업으로의 제로샷 전송을 가능하게 합니다. 우리는 이 접근 방식의 성능을 30개 이상의 기존 컴퓨터 비전 데이터셋에서 벤치마킹하여 연구하였습니다. 이 벤치마킹은 OCR, 동영상에서의 행동 인식, 지오-로케이션, 그리고 다양한 종류의 세부적인 객체 분류 등의 작업을 포함합니다. 모델은 대부분의 작업에 대해 실질적으로 전송되며, 특정 데이터셋에 대한 훈련 없이 완전히 감독된 기준선과 경쟁력이 있습니다. 예를 들어, 128만 개의 훈련 샘플을 사용하지 않고도 ImageNet에서 원래 ResNet-50과 같은 정확도를 제로샷으로 달성하였습니다. 우리의 코드와 사전 학습된 모델 가중치는 https://github.com/OpenAI/CLIP 에서 제공됩니다.