TimeSuite: 긴 비디오 이해를 위한 MLLM의 성능 향상을 위한 기반 조정을 통한 개선

다중모달 대규모 언어모델(Multimodal Large Language Models, MLLMs)은 짧은 영상 이해에서 뛰어난 성능을 보여왔다. 그러나 장시간 영상 이해는 여전히 MLLMs에게 도전 과제로 남아 있다. 본 논문에서는 기존의 짧은 영상 기반 MLLMs를 장시간 영상 이해에 적응시키기 위한 새로운 설계들을 모아낸 'TimeSuite'를 제안한다. 이는 장시간 영상 시퀀스를 처리하기 위한 간단하면서도 효율적인 프레임워크, MLLMs의 지도적 튜닝을 위한 고품질 영상 데이터셋, 그리고 기존 질의응답(QA) 형식에 지도적 감독을 명시적으로 통합하기 위해 철저히 설계된 지시 튜닝 작업을 포함한다. 구체적으로, VideoChat 기반으로 장시간 영상용 MLLM인 VideoChat-T를 개발하였으며, 이는 긴 영상 토큰을 압축하기 위한 토큰 셔플링(token shuffling)과 시각 표현의 시계열 인지 능력을 향상시키기 위한 시간적 적응형 위치 인코딩(Temporal Adaptive Position Encoding, TAPE)을 도입함으로써 구현되었다. 동시에, 지도적 튜닝에 중점을 둔 종합적인 데이터셋인 TimePro를 제안한다. TimePro는 9개의 작업과 349,000개의 고품질 지도적 주석(annotation)을 포함하고 있다. 특히, 시간적 지도 캡션(Temporal Grounded Caption)이라는 새로운 지시 튜닝 작업 유형을 설계하여, 해당 영상의 시각 콘텐츠와 시간 타임스탬프를 함께 예측하는 세부적인 영상 설명을 수행할 수 있도록 했다. 이러한 명시적인 시계열 위치 예측은 MLLM이 설명 생성 시 올바른 시각 콘텐츠에 주의를 기울이도록 유도함으로써, LLM이 유도하는 환상(hallucination) 위험을 감소시킨다. 실험 결과, TimeSuite는 짧은 영상 기반 MLLM의 장시간 영상 이해 능력을 효과적으로 향상시켰으며, Egoschema 및 VideoMME 벤치마크에서 각각 5.6%, 6.8%의 성능 향상을 달성하였다. 또한, VideoChat-T는 미세조정 없이도 강력한 제로샷 시계열 지도 능력을 보이며 기존 최고 수준의 MLLMs를 크게 상회한다. 미세조정 후에는 전통적인 지도 학습 전문 모델과 경쟁 수준의 성능을 보였다.