PRE: 재파라미터화 인코더를 활용한 비전-언어 프롬프트 학습

CLIP과 같은 대규모 사전 훈련된 시각-언어 모델은 하류 작업에 대한 제로샷 전이 가능성에서 큰 잠재력을 보여주었다. 그러나 최적의 성능을 달성하기 위해서는 하류 이미지 분포와 텍스트 클래스 설명 간의 일치를 향상시키기 위해 수동적인 프롬프트 선택이 필요하다. 이러한 수동적 프롬프트 엔지니어링은 실제 적용 시 주요한 도전 과제가 되는데, 이는 도메인 전문 지식을 요구하며 매우 시간이 오래 걸리기 때문이다. 비현실적인 프롬프트 엔지니어링을 피하기 위해 최근의 연구인 Context Optimization (CoOp)는 학습 가능한 텍스트 토큰을 사용하여 시각 영역에 프롬프트 학습의 개념을 도입했다. CoOp는 수동 프롬프트보다 상당한 성능 향상을 달성할 수 있지만, 동일한 데이터셋 내에서 더 넓은 미지의 클래스에 대해 일반화 능력이 낮다는 한계가 있다. 본 연구에서는 재매개변수화 인코더를 활용한 프롬프트 학습(Prompt Learning with Reparameterization Encoder, PRE)을 제안한다. 이는 학습 가능한 프롬프트의 미지 클래스에 대한 일반화 능력을 향상시키면서도 기초 클래스를 학습할 수 있는 능력을 유지하는 간단하고 효율적인 방법이다. 프롬프트를 직접 최적화하는 대신, PRE는 프롬프트 인코더를 사용하여 입력 프롬프트 임베딩을 재매개변수화함으로써, 소수의 샘플로부터 작업에 특화된 지식을 더 효과적으로 탐색할 수 있도록 한다. 8개의 벤치마크에서 수행된 실험과 광범위한 아블레이션 연구 결과에 따르면, 본 방법은 프롬프트 학습에 있어 효율적인 접근임을 입증한다. 특히 16샷 설정에서 CoOp 대비 새로운 클래스의 평균 정확도가 5.60% 향상되고, 조화 평균(Harmonic mean)은 3% 향상되며, 모두 합리적인 훈련 시간 내에 달성된다.