11일 전

VILA: 시각 언어 모델을 위한 사전 학습에 관한 연구

Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
VILA: 시각 언어 모델을 위한 사전 학습에 관한 연구
초록

시각 언어 모델(VLM)은 최근 대규모 언어 모델(LLM)의 성공에 힘입어 급속도로 발전하고 있다. LLM에 시각 입력을 추가하기 위한 시각 지시 조정(visual instruction tuning)에 대한 관심이 높아지고 있지만, 두 모달리티(시각 및 언어)를 동시에 모델링하는 데 필요한 시각-언어 사전학습 과정에 대한 심층적 연구는 여전히 부족한 실정이다. 본 연구에서는 단계적이고 제어 가능한 비교를 통해 LLM을 VLM으로 확장하는 과정을 보완함으로써 VLM 사전학습 설계 옵션을 탐구한다. 본 연구에서 도출된 주요 발견은 다음과 같다: (1) 사전학습 중 LLM을 고정(freezing)하는 것은 충분한 제로샷 성능을 달성할 수 있지만, 문맥 내 학습(in-context learning) 능력이 부족하며, 이를 향상시키기 위해서는 LLM을 해제(unfreezing)해야 한다; (2) 교차 배치된 사전학습 데이터(즉, 이미지-텍스트 쌍이 혼합된 데이터)는 유용하지만, 단순히 이미지-텍스트 쌍만으로 구성된 데이터는 최적의 성능을 내지 못한다; (3) 지시 조정 과정에서 텍스트 중심의 지시 데이터를 이미지-텍스트 데이터로 재혼합(re-blending)하는 것은 텍스트 중심 태스크의 성능 저하를 보완할 뿐 아니라, VLM 태스크의 정확도를 향상시킨다. 이러한 개선된 사전학습 레시피를 기반으로 개발된 VILA는, 별도의 복잡한 기법 없이도 주요 벤치마크에서 LLaVA-1.5 등 최신 기술을 일관되게 상회하는 시각-언어 모델 패밀리이다. 또한 다중 모달 사전학습을 통해 VILA의 매력적인 특성들이 드러났으며, 다중 이미지 추론, 강화된 문맥 내 학습 능력, 그리고 더 나은 세계 지식 인식 능력이 확인되었다.

VILA: 시각 언어 모델을 위한 사전 학습에 관한 연구 | 최신 연구 논문 | HyperAI초신경