Kwai Keye-VL 기술 보고서

다중모달 대형 언어 모델(MLLMs)은 정적 이미지에서 뛰어난 능력을 보여주지만, 오늘날의 디지털 환경에서 주요 매체인 동적이고 정보가 밀집된 짧은 형태의 비디오를 이해하는 데는 종종 부족함을 보입니다. 이러한 격차를 메우기 위해, 우리는 짧은 비디오 이해에 최첨단 성능을 발휘하면서도 강력한 일반적인 시각-언어 능력을 유지하도록 설계된 80억 개 파라미터 다중모달 기초 모델인 Kwai Keye-VL을 소개합니다. Keye-VL의 개발은 두 가지 핵심 기둥 위에 기반을 두고 있습니다: 6000억 개 토큰 이상으로 구성되며 특히 비디오에 중점을 둔 대규모 고품질 데이터셋과 혁신적인 학습 방법론입니다. 이 학습 방법론은 견고한 시각-언어 정렬을 위한 네 단계 사전 학습 과정과 이후 세심한 두 단계 후학습 과정을 특징으로 합니다. 첫 번째 후학습 단계에서는 지시사항 준수와 같은 기본 능력을 향상시키는 반면, 두 번째 단계에서는 고급 추론 능력을 촉진하는 데 초점을 맞춥니다. 이 두 번째 단계에서 중요한 혁신은 "사고", "비사고", "자동사고", "이미지를 활용한 사고", 그리고 고품질 비디오 데이터를 포함하는 다섯 가지 모드의 "콜드스타트" 데이터 믹스입니다. 이 믹스는 모델이 언제 어떻게 추론할지를 결정하게 가르칩니다. 그 다음 강화 학습(RL) 및 정렬 단계는 이러한 추론 능력을 더욱 향상시키고, 반복 출력 등의 비정상적인 모델 행동을 교정합니다. 우리의 접근 방식을 검증하기 위해, 공개 비디오 벤치마크에서 최신 수준의 결과를 달성하고 일반 이미지 기반 작업에서도 매우 경쟁력 있는 성능을 유지함(Figure 1)을 보여주는 광범위한 평가를 수행했습니다. 또한, 실제 세계 짧은 비디오 시나리오에 맞춤화된 새로운 벤치마크인 KC-MMBench를 개발하여 공개하였으며, 이 벤치마크에서 Keye-VL은 상당한 우위를 보였습니다.