17일 전
다중모달 소수 샘플 학습: 동결된 언어 모델을 활용한 접근
Maria Tsimpoukelli, Jacob Menick, Serkan Cabi, S. M. Ali Eslami, Oriol Vinyals, Felix Hill

초록
충분한 규모로 훈련된 자기회귀 언어 모델은 단지 몇 가지 예시를 제시받는 것으로 새로운 언어 작업을 학습하는 놀라운 능력을 보인다. 본 연구에서는 이러한 소수 샘플 학습 능력을 시각과 언어를 포함하는 다중모달 환경으로 전이하는 간단하면서도 효과적인 접근법을 제시한다. 일치된 이미지와 캡션 데이터를 사용하여, 각 이미지를 연속적인 임베딩 시퀀스로 표현하는 시각 인코더를 훈련한다. 이 시퀀스는 사전에 훈련된 고정된 언어 모델에 프리픽스로 제공되며, 해당 모델은 적절한 캡션을 생성한다. 결과적으로 얻어진 시스템은 다중모달 소수 샘플 학습자로서, 이미지와 텍스트 임베딩이 교차 배치된 시퀀스 형태로 예시를 조건으로 하여 다양한 새로운 작업을 학습하는 놀라운 능력을 갖추고 있다. 우리는 이 모델이 새로운 객체에 대한 단어를 빠르게 학습하고, 새로운 시각적 카테고리를 인식하며, 몇 개의 예시만으로도 시각 질문 응답(VQA)을 수행할 수 있음을 입증하였다. 또한 외부 지식을 활용하는 능력도 보유하고 있으며, 다양한 기존 및 새로운 벤치마크에서 단일 모델을 측정함으로써 이를 검증하였다.