2달 전
SlowFast-LLaVA: 비디오 대형 언어 모델을 위한 강력한 학습 없는 기준선
Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan

초록
우리는 SlowFast-LLaVA (이하 SF-LLaVA로 약칭)를 제안합니다. 이는 훈련이 필요 없는 비디오 대형 언어 모델(LLM)로, 일반적으로 사용되는 LLM의 토큰 예산을 초과하지 않으면서 상세한 공간적 의미와 장기적인 시간적 맥락을 동시에 포착할 수 있습니다. 이를 위해 비디오 LLM에 대한 두 개의 스트림 SlowFast 설계를 사용하여 샘플링된 비디오 프레임에서 특징을 효과적으로 집계합니다. 구체적으로, Slow 경로는 가능한 많은 공간적 세부 정보(예: 24x24 토큰)를 유지하면서 낮은 프레임 속도에서 특징을 추출하고, Fast 경로는 높은 프레임 속도에서 작동하지만 더 큰 공간 풀링 스트라이드(예: 6배 다운샘플링)를 사용하여 움직임 신호에 집중합니다. 결과적으로, 이 설계는 비디오 내 세부 사항을 이해하는 데 유용한 공간적 및 시간적 특징을 적절히 포착할 수 있게 해줍니다.실험 결과에 따르면, SF-LLaVA는 다양한 비디오 작업에서 기존의 훈련이 필요 없는 방법론들을 능가하며, 일부 벤치마크에서는 비디오 데이터셋에서 미세 조정(fine-tuned)된 최신 Video LLM들과 비교해도 유사하거나 심지어 더 우수한 성능을 보입니다.