摘要
近年来,计算机视觉与自然语言处理之间的融合成为研究热点。本文致力于解决印地语视频字幕生成问题。在印度这样语言多样性突出的国家,提供一种能够帮助用户理解视觉内容的本地化语言表达手段具有重要意义。为此,本文提出一种混合注意力机制,通过在软时序注意力机制的基础上引入语义注意力,使系统能够自主判断何时关注视觉上下文向量,何时关注语义输入。输入视频的视觉上下文向量由三维卷积神经网络(3D CNN)提取,随后采用带有注意力模块的长短期记忆网络(LSTM)对编码后的上下文向量进行解码。我们基于MSR-VTT数据集进行翻译并辅以后期编辑,构建了一个自建的印地语视频字幕数据集。实验结果表明,所提系统在该数据集上取得了0.369的CIDEr得分和0.393的METEOR得分,优于包括基于推理模块网络(RMN)在内的多种基线模型。