4달 전

VideoLLaMA 3: 이미지 및 비디오 이해를 위한 최전선 다중모달 기초 모델

Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao
VideoLLaMA 3: 이미지 및 비디오 이해를 위한 최전선 다중모달 기초 모델
초록

본 논문에서는 이미지 및 비디오 이해를 위한 더욱 발전된 다중모달 기초 모델인 VideoLLaMA3를 제안합니다. VideoLLaMA3의 핵심 설계 철학은 시각 중심적입니다. "시각 중심적"이라는 의미는 두 가지 측면에서 해석할 수 있습니다: 시각 중심적인 훈련 패러다임과 시각 중심적인 프레임워크 설계입니다. 우리의 시각 중심적인 훈련 패러다임의 핵심 통찰력은 고품질 이미지-텍스트 데이터가 이미지와 비디오 이해 모두에 중요하다는 것입니다. 대규모 비디오-텍스트 데이터셋을 준비하는 대신, 우리는 다양한 유형(장면 이미지, 문서, 차트 등)의 대규모 고품질 이미지-텍스트 데이터셋을 구축하는 데 초점을 맞추었습니다.VideoLLaMA3는 네 단계의 훈련 과정을 거칩니다:1) 시각 중심 정렬 단계: 이 단계에서는 시각 인코더와 프로젝터를 예열(warm up)합니다.2) 시각-언어 사전훈련 단계: 이 단계에서는 대규모 이미지-텍스트 데이터(여러 유형의 이미지-텍스트 데이터 및 텍스트만 있는 데이터 포함)를 사용하여 시각 인코더, 프로젝터, 그리고 LLM을 공동으로 조정(fine-tune)합니다.3) 다중태스크 미세조정 단계: 이 단계에서는 하류 작업용 이미지-텍스트 SFT(Supervised Fine-Tuning) 데이터와 비디오 이해 기반을 마련하기 위한 비디오-텍스트 데이터를 통합합니다.4) 비디오 중심 미세조정 단계: 이 단계에서는 모델의 비디오 이해 능력을 더욱 개선합니다.프레임워크 설계 측면에서, 이미지 내 세부 정보를 더 잘 포착하기 위해 사전훈련된 시각 인코더는 일정한 수의 토큰이 아닌 다양한 크기의 이미지를 해당하는 수의 시각 토큰으로 인코딩하도록 적응되었습니다. 비디오 입력에 대해서는 토큰 간 유사성을 기준으로 시각 토큰의 수를 줄여서 비디오 표현이 더욱 정확하고 압축되도록 하였습니다. 이러한 시각 중심적 설계 덕분에 VideoLLaMA3는 이미지와 비디오 이해 벤치마크에서 뛰어난 성능을 보여주고 있습니다.