2 个月前

SlowFast-LLaVA:视频大语言模型的强无训练基线

Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
SlowFast-LLaVA:视频大语言模型的强无训练基线
摘要

我们提出了一种无需训练的视频大语言模型(LLM),即SlowFast-LLaVA(简称SF-LLaVA),该模型能够在不超出常用LLM令牌预算的情况下,同时捕捉详细的空域语义和长距离的时间上下文。这一目标通过为视频LLM设计双流SlowFast输入来实现,从而以有效的方式聚合采样视频帧的特征。具体而言,慢路径以较低的帧率提取特征,同时尽可能保留更多的空间细节(例如,使用24x24个令牌),而快路径则以较高的帧率运行,但使用更大的空间池化步幅(例如,下采样6倍)来专注于运动线索。因此,这种设计使我们能够充分捕捉对理解视频细节有益的空间和时间特征。实验结果表明,SF-LLaVA在广泛的视频任务上优于现有的无需训练方法。在某些基准测试中,其性能与在视频数据集上微调的最先进视频LLM相当甚至更好。

SlowFast-LLaVA:视频大语言模型的强无训练基线 | 最新论文 | HyperAI超神经