8 个月前

摘要

视觉-语言预训练显著提升了广泛图像-语言应用的性能。然而，针对视频相关任务的预训练过程需要异常庞大的计算和数据资源，这阻碍了视频-语言模型的发展。本文研究了一种简单、高效且资源消耗低的方法，用于将现有的图像-语言预训练模型适应于密集视频理解。初步实验表明，直接在视频数据集上使用多帧作为输入对预训练的图像-语言模型进行微调会导致性能饱和甚至下降。进一步的研究发现，这主要是由于学习到的高范数视觉特征存在偏差所致。受此发现的启发，我们提出了一种简单但有效的池化策略，以平滑沿时间维度的特征分布，从而减少极端特征的主导影响。新模型被称为池化LLaVA（Pooling LLaVA），简称PLLaVA，在现代基准数据集上的视频问答和字幕生成任务中均达到了新的最先进水平。特别是在最近流行的Video ChatGPT基准测试中，PLLaVA在五个评估维度上的平均得分为3.48（满分5分），比之前的最佳结果GPT4V（IG-VLM）高出9%。在最新的多项选择基准测试MVBench中，PLLaVA在20个子任务上的平均准确率为58.1%，比GPT4V（IG-VLM）高出14.5%。代码可在https://github.com/magic-research/PLLaVA 获取。

源 PDF