
초록
본 연구에서는 비디오 및 이미지 이해를 위한 비전 언어 모델(Vision Language Models, VLMs)의 토큰 생성 문제를 해결하기 위해 LLaMA-VID라는 새로운 방법을 제시합니다. 현재의 VLMs는 이미지 캡셔닝과 시각적 질문 응답 등의 작업에 능숙하지만, 과도한 시각적 토큰으로 인해 긴 비디오 처리 시 계산 부담을 겪습니다. LLaMA-VID는 각 프레임을 컨텍스트 토큰(context token)과 콘텐츠 토큰(content token)이라는 두 가지 다른 토큰으로 표현하여 이 문제를 해결합니다. 컨텍스트 토큰은 사용자 입력을 기반으로 전체 이미지 컨텍스트를 인코딩하고, 콘텐츠 토큰은 각 프레임 내의 시각적 신호를 포함합니다. 이러한 이중 토큰 전략은 중요한 정보를 유지하면서 긴 비디오의 과부하를 크게 줄입니다. 일반적으로, LLaMA-VID는 기존 프레임워크가 1시간 이상의 비디오를 지원할 수 있도록 하고, 추가적인 컨텍스트 토큰을 통해 그 상한선을 확장합니다. LLaMA-VID는 대부분의 비디오 또는 이미지 기반 벤치마크에서 이전 방법들을 능가하는 것으로 입증되었습니다. 코드는 다음 링크에서 이용 가능합니다: https://github.com/dvlab-research/LLaMA-VID.