9 天前

CLIP4Clip:面向端到端视频片段检索的CLIP实证研究

Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, Tianrui Li
CLIP4Clip:面向端到端视频片段检索的CLIP实证研究
摘要

视频-文本检索在多模态研究中扮演着至关重要的角色,并已广泛应用于众多现实世界的网络应用场景。CLIP(Contrastive Language-Image Pre-training)作为一种图像-语言预训练模型,展示了从大规模网络收集的图像-文本数据集中学习视觉概念的强大能力。本文提出了一种名为CLIP4Clip的模型,旨在以端到端的方式将CLIP模型的知识迁移至视频-语言检索任务中。通过一系列实证研究,我们探讨了以下几个关键问题:1)图像特征是否足以支撑视频-文本检索任务?2)基于大规模视频-文本数据集对CLIP模型进行后续预训练,对性能提升有何影响?3)在建模视频帧之间时序依赖关系方面,实际有效的机制是什么?4)该模型在视频-文本检索任务中对超参数的敏感性如何?大量实验结果表明,从CLIP迁移而来的CLIP4Clip模型在多个主流视频-文本检索数据集上(包括MSR-VTT、MSVC、LSMDC、ActivityNet和DiDeMo)均取得了当前最优(SOTA)的性能表现。相关代码已开源,地址为:https://github.com/ArrowLuo/CLIP4Clip。