17일 전
프리즘어: 다중 작업 전문가를 갖춘 시각-언어 모델
Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar

초록
최근의 시각-언어 모델은 놀라운 다중 모달 생성 능력을 보여주고 있다. 그러나 일반적으로 이러한 모델들은 거대한 데이터셋에서 거대한 모델을 훈련해야 한다. 더 확장 가능한 대안으로, 우리는 특정 작업에 특화된 전문가들로 구성된 앙상블을 활용하는 데이터 및 파라미터 효율적인 시각-언어 모델인 Prismer를 소개한다. Prismer는 소수의 구성 요소만 훈련하면 되며, 대부분의 네트워크 가중치는 사전 훈련된 여러 개의 즉시 이용 가능한 전문가 모델에서 상속받아 훈련 중 동결된 상태로 유지한다. 다양한 분야의 전문가를 활용함으로써, Prismer가 이 전문 지식을 효율적으로 통합하고 다양한 시각-언어 추론 작업에 적응시킬 수 있음을 보여준다. 실험을 통해 Prismer가 현재 최고 수준의 모델들과 경쟁 가능한 정밀한 조정 및 소량 학습 성능을 달성하면서도, 훈련 데이터를 최대 두 자릿수만큼 줄일 수 있음을 확인했다. 코드는 https://github.com/NVlabs/prismer 에서 제공된다.