2 个月前

伊甸园:通过多模态大语言模型探索视频中的对象级感知

Han Wang; Yanjie Wang; Yongjie Ye; Yuxiang Nie; Can Huang
伊甸园:通过多模态大语言模型探索视频中的对象级感知
摘要

多模态大语言模型(MLLMs)已经展示了其在静态图像中感知物体的能力,但在视频相关任务中的应用,如目标跟踪,仍处于研究不足的状态。这一探索不足主要归因于两个关键挑战。首先,需要在大规模视频数据集上进行广泛的预训练,以使MLLMs具备跨多个帧感知物体并理解帧间关系的能力。其次,在大语言模型(LLMs)的上下文窗口内处理大量帧可能会带来显著的计算负担。为了解决第一个挑战,我们引入了ElysiumTrack-1M,这是一个支持三项任务的大规模视频数据集:单目标跟踪(SOT)、指代单目标跟踪(RSOT)和视频指代表达生成(Video-REG)。ElysiumTrack-1M包含127万个带有相应物体框和描述的标注视频帧。利用该数据集,我们对MLLMs进行了训练,并提出了一种令牌压缩模型T-Selector来应对第二个挑战。我们提出的方案Elysium:通过MLLM探索视频中的目标级感知,是一种端到端可训练的MLLM,旨在无需任何额外插件或专家模型的情况下执行视频中的目标级任务。所有代码和数据集均可在https://github.com/Hon-Wong/Elysium获取。