8 天前

IcoCap:通过图像复合提升视频字幕生成

{Yi Yang, Xiaohan Wang, Linchao Zhu, Yuanzhi Liang}
摘要

与图像字幕生成相比,视频字幕生成是一项更具挑战性的任务,主要源于内容密度的差异。视频数据通常包含大量冗余的视觉信息,这使得字幕生成模型难以有效泛化多样化的语义内容,容易受到无关信息的干扰。此外,视频中的冗余内容在标注时未能充分精简以匹配真实标签(ground truth)所对应的视觉语义,进一步加剧了任务难度。当前视频字幕研究主要集中于字幕生成器(captioner)的架构设计,而忽视了内容密度对生成性能的显著影响。考虑到视频与图像在结构和语义表达上的本质差异,我们提出一种新的优化思路:利用简洁且易于学习的图像样本,增强视频样本的多样性,从而调节内容密度。通过这种调整,促使字幕生成器在面对冗余和模糊信息时,能够更有效地学习视频语义。本文提出一种名为图像复合学习(Image-Compounded learning for video Captioners, IcoCap)的新方法,以促进复杂视频语义的高效学习。IcoCap由两个核心模块构成:图像-视频复合策略(Image-Video Compounding Strategy, ICS)与视觉-语义引导字幕生成(Visual-Semantic Guided Captioning, VGC)。ICS将易于学习的图像语义信息融合进视频语义中,进一步丰富视频样本的多样性,促使网络在更具差异性的样本上进行泛化学习。同时,在包含图像语义信息的复合样本上进行训练,迫使字幕生成器在清晰的图像语义背景下,更精准地提取视频中真正有价值的视觉线索,从而增强对关键信息的关注,有效过滤无关内容。随后,VGC模块基于复合样本,引导网络灵活学习真实标签(ground truth)字幕,缓解真实标签与视频样本中模糊语义之间的不匹配问题。实验结果表明,IcoCap在提升字幕生成器学习能力方面具有显著效果。在广泛使用的MSVD、MSR-VTT和VATEX数据集上,该方法均取得了与当前最优方法相当甚至更优的性能,充分验证了其在处理冗余与模糊视频数据方面的强大能力。