비전-언어 모델을 위한 도메인 불변 프롬프트 학습

프롬프트 학습은 CLIP과 같은 강력한 시각-언어 기반 모델을 하류 데이터셋에 적응시키는 데 있어 가장 효과적이고 주목받는 방법 중 하나로, 매우 적은 샘플만으로 학습 가능한 프롬프트 벡터를 조정함으로써 가능하다. 그러나 프롬프트 학습은 도메인 내 데이터에 대해 뛰어난 성능을 보이지만, 미지의 클래스나 도메인으로의 일반화 능력에 있어 여전히 주요한 과제를 안고 있다. 기존의 일부 프롬프트 학습 방법들은 서로 다른 토큰이나 도메인에 대해 적응적으로 다른 프롬프트를 생성함으로써 이 문제를 해결하려 했으나, 학습된 프롬프트가 미지의 도메인으로 일반화될 수 있는 능력을 간과하고 있다. 본 논문에서는 새로운 프롬프트 학습 패러다임을 제안하며, 미지의 도메인으로도 일반화 가능한 \emph{도메인 불변 프롬프트}를 직접 생성하는 MetaPrompt를 도입한다. 구체적으로, 이미지와 텍스트 두 가지 모달리티의 입력에 대해 프롬프트를 생성하기 위한 이중 모달 프롬프트 튜닝 네트워크를 제안한다. 또한 새로운 비대칭 컨트라스티브 손실을 도입하여, 사전 학습된 시각-언어 모델의 표현을 감독 신호로 활용함으로써 학습된 프롬프트의 일반화 능력을 강화한다. 더 중요한 점은, 메타학습 기반의 프롬프트 튜닝 알고리즘을 제안하여, 특정 도메인이나 클래스에 대해 튜닝된 태스크 특화 프롬프트가 다른 도메인이나 클래스에서도 우수한 성능을 달성하도록 명시적으로 제약한다는 점이다. 베이스-뉴 일반화를 위한 11개 데이터셋과 도메인 일반화를 위한 4개 데이터셋에서 실시한 광범위한 실험 결과, 제안한 방법이 기존 방법들을 일관되게 그리고 유의미하게 뛰어넘는 성능을 보임을 입증하였다.