Tarsier2: 상세한 비디오 설명에서 포괄적인 비디오 이해로의 발전

우리는 최신의 대형 시각-언어 모델(LVLM)인 Tarsier2를 소개합니다. 이 모델은 상세하고 정확한 비디오 설명을 생성하는 데 설계되었으며, 우수한 일반적인 비디오 이해 능력을 보여줍니다. Tarsier2는 세 가지 주요 업그레이드를 통해 중요한 발전을 이루었습니다: (1) 11M에서 40M 비디오-텍스트 쌍으로 사전 학습 데이터를 확장하여 양과 다양성을 향상시켰습니다; (2) 지도 학습 미세 조정 과정에서 세밀한 시간적 맞춤을 수행했습니다; (3) 모델 기반 샘플링을 사용하여 선호도 데이터를 자동으로 구성하고, DPO(데이터 평가 최적화) 학습을 적용하여 최적화했습니다.다양한 실험 결과에 따르면, Tarsier2-7B는 상세한 비디오 설명 작업에서 GPT-4o와 Gemini 1.5 Pro와 같은 선도적인 독점 모델들을 일관되게 능가합니다. DREAM-1K 벤치마크에서 Tarsier2-7B는 GPT-4o보다 F1 점수가 2.8% 개선되었으며, Gemini-1.5-Pro보다 5.8% 개선되었습니다. 인간의 측면 비교 평가에서는 Tarsier2-7B가 GPT-4o에 비해 +8.6%의 성능 우위를 보였으며, Gemini-1.5-Pro에 비해 +24.9%의 성능 우위를 보였습니다.또한, Tarsier2-7B는 비디오 질문 응답, 비디오 근거 찾기, 환각 테스트 및 체험적 질문 응답 등 다양한 작업을 포함하는 15개의 공개 벤치마크에서 새로운 최고 수준의 결과를 달성하며, 강력한 일반주의 시각-언어 모델로서의 다재다능성을 입증하였습니다.