VideoLLaMA 2: 비디오-LLM에서 시공간 모델링과 오디오 이해의 발전

본 논문에서는 VideoLLaMA 2를 소개합니다. 이는 비디오와 오디오 중심의 작업에서 공간-시간 모델링과 오디오 이해를 향상시키기 위해 설계된 비디오 대형 언어 모델(VL-LM, Video-LLMs) 집합입니다. 전작을 기반으로 하여, VideoLLaMA 2는 비디오 데이터의 복잡한 공간적 및 시간적 동역학을 효과적으로 포착하는 맞춤형 공간-시간 합성곱(STC, Spatial-Temporal Convolution) 연결자를 통합합니다. 또한, 공동 학습을 통해 모델에 오디오 분기를 통합하여, 오디오 신호를 원활하게 결합함으로써 모델의 다중 감각 이해 능력을 향상시킵니다.다양한 선택지가 있는 비디오 질문 응답(MC-VQA, Multiple-Choice Video Question Answering), 개방형 비디오 질문 응답(OE-VQA, Open-Ended Video Question Answering), 그리고 비디오 캡셔닝(VC, Video Captioning) 작업에 대한 종합적인 평가 결과는 VideoLLaMA 2가 오픈 소스 모델들 사이에서 일관되게 경쟁력 있는 성과를 거두며, 여러 벤치마크에서 일부 상용 모델에 근접하는 것을 보여줍니다. 더욱이, 오직 오디오만 사용하거나 오디오와 비디오를 함께 사용하는 질문 응답(AQA & OE-AVQA, Audio-Only and Audio-Video Question Answering) 벤치마크에서도 기존 모델들보다 합리적인 개선을 보이는 것으로 나타났습니다.이러한 발전은 VideoLLaMA 2가 다중 감각 이해에서 우수한 성능을 발휘하며, 지능형 비디오 분석 시스템의 새로운 표준을 제시하고 있음을 강조합니다. 모든 모델은 추가 연구를 지원하기 위해 공개되어 있습니다.