2달 전
VTimeLLM: 대형 언어 모델을 활용한 비디오 순간 이해
Bin Huang; Xin Wang; Hong Chen; Zihan Song; Wenwu Zhu

초록
대형 언어 모델(LLMs)은 뛰어난 텍스트 이해 능력을 보여주었으며, 이는 비디오 데이터의 시각적 세부 사항을 이해하기 위해 비디오 LLMs로 확장되었습니다. 그러나 기존의 비디오 LLMs는 전체 비디오에 대한 대략적인 설명만 제공할 수 있으며, 특정 이벤트의 정확한 시작과 종료 시간 경계를 포착하지 못하는 문제가 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 시간 경계에 대한 미세한 비디오 순간 이해 및 추론을 위한 새로운 비디오 LLM인 VTimeLLM을 제안합니다. 구체적으로, VTimeLLM은 경계 인식 세 단계 학습 전략을 채택하여 이미지-텍스트 쌍을 사용하여 특성 맞춤, 다중 이벤트 비디오를 활용하여 시간 경계 인식을 강화하고, 고품질의 비디오 지시 조정을 통해 시간 이해 능력을 더욱 개선하며 인간 의도와 일치시키는 역할을 합니다. 광범위한 실험 결과, VTimeLLM이 시각적 시간 관련 이해 작업(예: 시간적 비디오 근거 찾기(Temporal Video Grounding) 및 밀집형 비디오 캡셔닝(Dense Video Captioning))에서 기존의 비디오 LLMs보다 크게 우수함을 입증하였습니다. 또한, VTimeLLM은 비디오의 미세한 시간 이해 덕분에 기존의 비디오 LLMs보다 비디오 대화 벤치마크에서 더 우수한 성능을 보여주며, 이를 통해 그의 우월한 다중 모달 이해 및 추론 능력이 입증됩니다.