
세밀한 비디오 설명 생성은 비디오 이해의 기본적인 과제입니다. 본 연구에서는 고품질의 비디오 설명을 생성하기 위해 설계된 대규모 비디오-언어 모델인 Tarsier(타르시어)를 소개합니다. Tarsier는 CLIP-ViT를 사용하여 프레임을 개별적으로 인코딩하고, 이후 LLM을 통해 시간적 관계를 모델링합니다. 간단한 아키텍처에도 불구하고, 세심하게 설계된 두 단계 학습 절차를 통해 Tarsier 모델들은 기존 오픈 소스 모델들보다 현저히 강력한 비디오 설명 능력을 보여주며, 가장 강력한 모델과 비교하여 인간의 측면 평가에서 +51.4%의 우위를 나타냈습니다. 또한, 최신 상용 모델들과 비교해도 GPT-4V에 대해 +12.3%의 우위와 Gemini 1.5 Pro에 대해 -6.7%의 열세를 보이는 등 유사한 성능을 발휘합니다. SigLIP과 Qwen2-7B를 기반으로 업그레이드된 Tarsier2는 GPT-4o에 대해 +4.8%의 우위를 보이는 등 더욱 크게 향상되었습니다. 비디오 설명 외에도, Tarsier는 다양한 공개 벤치마크에서 새로운 최고 수준의 결과를 달성하며 다재다능한 일반화 모델임을 입증했습니다. 이 벤치마크는 다중 선택형 VQA, 개방형 VQA, 제로샷 비디오 캡셔닝 등을 포함하는 9개 분야에서 이루어졌습니다.본 연구의 두 번째 기여는 새로운 비디오 설명 모델 평가 벤치마크인 DREAM-1K(https://tarsier-vlm.github.io/)를 도입하는 것입니다. 이 벤치마크는 다양한 출처와 복잡도를 가진 새로운 도전적인 데이터셋과 함께, 세밀한 비디오 설명의 품질을 평가하기 위한 특화된 자동 방법을 제공합니다. 우리는 우리의 모델과 평가 벤치마크를 https://github.com/bytedance/tarsier에서 공개적으로 제공합니다.