2 个月前
Tarsier2:从详细的视频描述到全面的视频理解——推进大型视觉-语言模型的发展
Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin

摘要
我们介绍了Tarsier2,这是一款最先进的大规模视觉-语言模型(LVLM),旨在生成详细且准确的视频描述,同时展现出卓越的通用视频理解能力。Tarsier2通过三项关键升级实现了显著的进步:(1) 将预训练数据从1100万增加到4000万个视频-文本对,丰富了数据量和多样性;(2) 在监督微调过程中进行细粒度的时间对齐;(3) 使用基于模型的采样自动构建偏好数据,并应用DPO(Data Preference Optimization)训练进行优化。广泛的实验表明,Tarsier2-7B在详细视频描述任务中始终优于领先的专有模型,包括GPT-4o和Gemini 1.5 Pro。在DREAM-1K基准测试中,Tarsier2-7B的F1分数比GPT-4o提高了2.8%,比Gemini-1.5-Pro提高了5.8%。在人类并排评估中,Tarsier2-7B的表现优势为比GPT-4o高出8.6%,比Gemini-1.5-Pro高出24.9%。此外,Tarsier2-7B还在15个公开基准测试中取得了新的最佳结果,涵盖的任务包括视频问答、视频定位、幻觉测试和具身问答,展示了其作为强大的通用视觉-语言模型的多功能性。