MaPLe: 다중모달 프롬프트 학습

사전 훈련된 시각-언어(V-L) 모델, 예를 들어 CLIP는 하류 작업에 대해 뛰어난 일반화 능력을 보여주었다. 그러나 이러한 모델은 입력 텍스트 프롬프트의 선택에 매우 민감하며, 성능을 발휘하기 위해서는 프롬프트 템플릿을 신중하게 선택해야 한다. 자연어 처리(NLP) 분야의 기존 연구에 영감을 받아, 최근의 CLIP 적응 기법들은 하류 작업을 위해 CLIP를 미세조정하기 위한 텍스트 입력으로 프롬프트를 학습하는 방식을 채택하고 있다. 본 연구에서는 CLIP의 언어 또는 시각 브랜치 중 하나에만 프롬프팅을 적용하는 방식이 하류 작업에서 두 표현 공간을 동적으로 조정할 수 있는 유연성을 제공하지 못하므로, 최적의 성능을 내기에는 부적절하다는 점을 지적한다. 본 연구에서는 시각과 언어 브랜치 모두에 대해 다중모달 프롬프트 학습(MaPLe)을 제안함으로써 시각-언어 표현 간의 정렬을 개선하고자 한다. MaPLe의 설계는 시각-언어 프롬프트 간 강한 결합을 촉진하여 상호 보완적 상호작용을 유도하며, 독립적인 단모달 솔루션의 학습을 억제한다. 또한, 초기 단계들 간에 별도의 프롬프트를 학습함으로써 단계별 특징 관계를 점진적으로 모델링하고 풍부한 맥락 정보를 학습할 수 있도록 한다. 제안한 방법의 효과는 새로운 클래스에 대한 일반화, 새로운 타겟 데이터셋에 대한 일반화, 그리고 미처 경험하지 못한 도메인 전이에 대한 일반화라는 세 가지 대표적인 과제에서 평가되었다. 최첨단 기법인 Co-CoOp와 비교했을 때, MaPLe는 우수한 성능을 보이며, 11개의 다양한 이미지 인식 데이터셋에 걸쳐 평균적으로 새로운 클래스에서 3.45%의 절대 성능 향상과 전체 조화 평균에서 2.72%의 성능 향상을 달성하였다. 본 연구의 코드 및 사전 훈련된 모델은 https://github.com/muzairkhattak/multimodal-prompt-learning 에서 공개되어 있다.