7 天前

CLIP 遇上视频字幕生成：概念感知的表征学习至关重要

Bang Yang, Tong Zhang, Yuexian Zou

摘要

在视频字幕生成任务中，“预训练-微调”已成为一种事实上的范式：通常采用ImageNet预训练（INP）对视频内容进行编码，随后从头训练一个面向任务的网络以完成字幕生成。本文首次系统研究了近期提出的CLIP（对比语言-图像预训练）模型在视频字幕任务中的影响。通过对比INP与CLIP的实证分析，我们揭示了INP在语义建模方面的潜在局限性，并深入探讨了实现准确描述生成的关键因素。实验结果表明，基于INP的模型在捕捉概念语义方面表现不佳，且对无关背景信息较为敏感；相比之下，基于CLIP的模型显著提升了字幕质量，凸显了概念感知表征学习的重要性。基于上述发现，本文进一步提出双概念检测（Dual Concept Detection, DCD）机制，在训练过程中向模型注入概念知识。DCD作为一种辅助任务，要求字幕模型学习视频内容与概念之间的对应关系，以及概念间的共现关系。在MSR-VTT和VATEX数据集上的实验验证了DCD的有效性，可视化结果进一步证实了学习概念感知表征的必要性。