7 天前

CLIP 遇上视频字幕生成:概念感知的表征学习至关重要

Bang Yang, Tong Zhang, Yuexian Zou
CLIP 遇上视频字幕生成:概念感知的表征学习至关重要
摘要

在视频字幕生成任务中,“预训练-微调”已成为一种事实上的范式:通常采用ImageNet预训练(INP)对视频内容进行编码,随后从头训练一个面向任务的网络以完成字幕生成。本文首次系统研究了近期提出的CLIP(对比语言-图像预训练)模型在视频字幕任务中的影响。通过对比INP与CLIP的实证分析,我们揭示了INP在语义建模方面的潜在局限性,并深入探讨了实现准确描述生成的关键因素。实验结果表明,基于INP的模型在捕捉概念语义方面表现不佳,且对无关背景信息较为敏感;相比之下,基于CLIP的模型显著提升了字幕质量,凸显了概念感知表征学习的重要性。基于上述发现,本文进一步提出双概念检测(Dual Concept Detection, DCD)机制,在训练过程中向模型注入概念知识。DCD作为一种辅助任务,要求字幕模型学习视频内容与概念之间的对应关系,以及概念间的共现关系。在MSR-VTT和VATEX数据集上的实验验证了DCD的有效性,可视化结果进一步证实了学习概念感知表征的必要性。

CLIP 遇上视频字幕生成:概念感知的表征学习至关重要 | 最新论文 | HyperAI超神经