
摘要
大型语言模型(LLMs)在文本理解和生成方面展示了令人印象深刻的能力,这促使研究人员努力开发视频LLMs,以促进视频层面的人机交互。然而,如何在基于视频的对话系统中有效地编码和理解视频仍然是一个未解决的问题。本文探讨了一个简单但尚未被研究的问题:是否可以将所有时空标记输入到LLM中,从而将视频序列建模的任务委托给LLM?令人惊讶的是,这种简单的做法在视频理解方面带来了显著的改进。基于此,我们提出了ST-LLM,这是一种具有时空序列建模功能的有效视频LLM基线模型。此外,为了解决LLM中未压缩视频标记带来的开销和稳定性问题,我们开发了一种动态掩码策略,并设计了定制的训练目标。对于特别长的视频,我们还设计了一个全局-局部输入模块来平衡效率和效果。因此,我们在保持高效性和稳定性的前提下,利用LLM实现了高效的时空建模。大量的实验结果证明了我们方法的有效性。通过更加简洁的模型和训练流程,ST-LLM在VideoChatGPT-Bench和MVBench上建立了新的最先进水平。代码已发布在https://github.com/TencentARC/ST-LLM。