좋은 프롬프트는 수백만 파라미터에 균형을 이룬다: 시각-언어 모델을 위한 저자원 프롬프트 기반 학습

대규모 사전 훈련된 시각-언어(VL) 모델은 몇 개의 예시만으로도 새로운 작업을 학습하고, 미세조정 없이도 새로운 작업으로 일반화할 수 있다. 그러나 이러한 VL 모델은 실제 응용에 배포하기에 부적절할 정도로 매우 크고 추론 속도가 느려 어려움이 있다. 이 제한을 해결하기 위해, 최근의 소수 샘플 학습 모델보다 상대적으로 작고, 프롬프트 기반의 저자원 학습을 위한 우리 제안 방법인 FewVLM을 제안한다. FewVLM에서는 접두사 언어 모델링(PrefixLM)과 마스킹 언어 모델링(MaskedLM)을 사용하여 시퀀스-투-시퀀스(transformer) 모델을 사전 훈련한다. 또한, 소수 샘플 작업에 대한 다양한 프롬프트의 영향을 분석한다. VQA에 대한 실험 결과, 프롬프트 기반 학습을 사용한 FewVLM은 크기가 31배 큰 Frozen 모델보다 18.2%포인트 높은 성능을 달성했으며, 246배 큰 모델인 PICa와 비교해도 유사한 성능을 보였다. 분석 결과, (1) 프롬프트는 제로샷 성능에 크게 영향을 미치지만 소수 샘플 성능에는 거의 영향을 주지 않으며, (2) 노이즈가 포함된 프롬프트를 사용한 모델은 더 많은 학습 데이터가 주어졌을 때 수작업으로 설계한 프롬프트와 비슷한 속도로 학습되며, (3) MaskedLM은 VQA 작업에 도움이 되는 반면 PrefixLM은 캡션 생성 성능을 향상시킨다. 본 연구의 코드는 공개적으로 제공되며, \url{https://github.com/woojeongjin/FewVLM}에서 확인할 수 있다.