VideoLLaMA 3: 이미지 및 비디오 이해를 위한 최전선 다중모달 기초 모델

본 논문에서는 이미지 및 비디오 이해를 위한 더욱 발전된 다중모달 기초 모델인 VideoLLaMA3를 제안합니다. VideoLLaMA3의 핵심 설계 철학은 시각 중심적입니다. "시각 중심적"이라는 의미는 두 가지 측면에서 해석할 수 있습니다: 시각 중심적인 훈련 패러다임과 시각 중심적인 프레임워크 설계입니다. 우리의 시각 중심적인 훈련 패러다임의 핵심 통찰력은 고품질 이미지-텍스트 데이터가 이미지와 비디오 이해 모두에 중요하다는 것입니다. 대규모 비디오-텍스트 데이터셋을 준비하는 대신, 우리는 다양한 유형(장면 이미지, 문서, 차트 등)의 대규모 고품질 이미지-텍스트 데이터셋을 구축하는 데 초점을 맞추었습니다.VideoLLaMA3는 네 단계의 훈련 과정을 거칩니다:1) 시각 중심 정렬 단계: 이 단계에서는 시각 인코더와 프로젝터를 예열(warm up)합니다.2) 시각-언어 사전훈련 단계: 이 단계에서는 대규모 이미지-텍스트 데이터(여러 유형의 이미지-텍스트 데이터 및 텍스트만 있는 데이터 포함)를 사용하여 시각 인코더, 프로젝터, 그리고 LLM을 공동으로 조정(fine-tune)합니다.3) 다중태스크 미세조정 단계: 이 단계에서는 하류 작업용 이미지-텍스트 SFT(Supervised Fine-Tuning) 데이터와 비디오 이해 기반을 마련하기 위한 비디오-텍스트 데이터를 통합합니다.4) 비디오 중심 미세조정 단계: 이 단계에서는 모델의 비디오 이해 능력을 더욱 개선합니다.프레임워크 설계 측면에서, 이미지 내 세부 정보를 더 잘 포착하기 위해 사전훈련된 시각 인코더는 일정한 수의 토큰이 아닌 다양한 크기의 이미지를 해당하는 수의 시각 토큰으로 인코딩하도록 적응되었습니다. 비디오 입력에 대해서는 토큰 간 유사성을 기준으로 시각 토큰의 수를 줄여서 비디오 표현이 더욱 정확하고 압축되도록 하였습니다. 이러한 시각 중심적 설계 덕분에 VideoLLaMA3는 이미지와 비디오 이해 벤치마크에서 뛰어난 성능을 보여주고 있습니다.