8 天前
基于高效关键帧选择的视频字幕生成框架
{Sivaji Bandyopadhyay, Thoudam Doren Singh, Salam Michael Singh, Loitongbam Sanayai Meetei, Alok Singh}

摘要
视频描述是一项极具挑战性但又极具吸引力的任务,因为它处于计算机视觉与自然语言生成的交叉领域。目前,基于注意力机制的模型在该任务中表现最佳。然而,这些模型普遍采用相似的处理流程,例如将视频分割为帧块,或以等间隔采样帧进行视觉编码。这种帧分割或等间隔采样方式会导致冗余视觉信息的编码,并引入额外的计算开销,因为视频通常由一系列相似帧组成,且不可避免地存在诸如光照不均、遮挡以及运动模糊等噪声问题。本文提出了一种基于边界的关键帧选择方法,用于视频描述任务。该方法能够从视频中选取一个紧凑的关键帧子集,有效编码视觉信息,并在此基础上生成视频描述,而不会造成显著性能下降。实验结果表明,该方法每视频仅需3至4帧,即可在两个基准数据集MSVD和MSR-VTT上实现具有竞争力的性能,且在英文和印地语两种语言下均表现优异。