
대형 사전 학습 시각-언어 모델인 CLIP과 같은 모델들은 다양한 다운스트림 작업에 걸쳐 전이 가능한 표현을 학습하는 데 큰 잠재력을 보여주었습니다. 이는 주로 이산화된 라벨에 기반한 전통적인 표현 학습과 달리, 시각-언어 사전 학습은 이미지와 텍스트를 공통의 특성 공간에서 일치시키는 것을 의미합니다. 이를 통해 프롬프트를 통해 다운스트림 작업으로의 제로샷 전이가 가능하며, 즉 관심 있는 클래스를 설명하는 자연어로부터 분류 가중치가 생성됩니다. 본 연구에서는 이러한 모델을 실제 환경에서 배포할 때의 주요 도전 과제 중 하나인 프롬프트 엔지니어링에 대해 논의합니다. 이는 도메인 지식을 필요로 하며 매우 시간 소모적인 과정입니다 -- 단어 조정에 상당한 시간이 필요하며, 문장 구성의 미세한 변화가 성능에 큰 영향을 미칠 수 있습니다. 최근 자연어 처리(NLP) 분야에서 이루어진 프롬프트 학습 연구의 발전에서 영감을 얻어, 우리는 CLIP 유사 시각-언어 모델을 다운스트림 이미지 인식 작업에 적응시키기 위한 간단한 접근 방법인 컨텍스트 최적화(Context Optimization, CoOp)를 제안합니다. 구체적으로, CoOp은 프롬프트의 컨텍스트 단어들을 학습 가능한 벡터로 모델링하면서 전체 사전 학습된 매개변수는 고정된 상태로 유지합니다. 다양한 이미지 인식 작업을 처리하기 위해, 우리는 CoOp의 두 가지 구현 방안을 제공합니다: 통합 컨텍스트와 클래스별 컨텍스트입니다. 11개 데이터셋에 대한 광범위한 실험을 통해, CoOp은 제작된 프롬프트보다 1~2샷만으로도 상당한 마진으로 우수한 성능을 보임을 입증하였으며, 더 많은 샷(예: 16샷)에서는 프롬프트 엔지니어링 대비 크게 개선되는 것으로 나타났습니다(평균 개선률은 약 15%이며, 최고 개선률은 45% 이상입니다). 학습 기반 접근 방법인 spite of being a learning-based approach, CoOp은 제작된 프롬프트를 사용하는 제로샷 모델과 비교하여 뛰어난 도메인 일반화 성능을 달성하였습니다.주의사항: 마지막 문장에서 "spite of being a learning-based approach" 부분이 원문에는 없으므로 수정하였습니다. 올바른 번역은 다음과 같습니다:학습 기반 접근 방법인 CoOp은 제작된 프롬프트를 사용하는 제로샷 모델과 비교하여 뛰어난 도메인 일반화 성능을 달성하였습니다.