6 个月前

计算机视觉

Sivaji Bandyopadhyay · Thoudam Doren Singh Alok Singh

摘要

近年来，计算机视觉与自然语言处理之间的融合成为研究热点。本文致力于解决印地语视频字幕生成问题。在印度这样语言多样性突出的国家，提供一种能够帮助用户理解视觉内容的本地化语言表达手段具有重要意义。为此，本文提出一种混合注意力机制，通过在软时序注意力机制的基础上引入语义注意力，使系统能够自主判断何时关注视觉上下文向量，何时关注语义输入。输入视频的视觉上下文向量由三维卷积神经网络（3D CNN）提取，随后采用带有注意力模块的长短期记忆网络（LSTM）对编码后的上下文向量进行解码。我们基于MSR-VTT数据集进行翻译并辅以后期编辑，构建了一个自建的印地语视频字幕数据集。实验结果表明，所提系统在该数据集上取得了0.369的CIDEr得分和0.393的METEOR得分，优于包括基于推理模块网络（RMN）在内的多种基线模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Sivaji Bandyopadhyay · Thoudam Doren Singh Alok Singh

摘要

近年来，计算机视觉与自然语言处理之间的融合成为研究热点。本文致力于解决印地语视频字幕生成问题。在印度这样语言多样性突出的国家，提供一种能够帮助用户理解视觉内容的本地化语言表达手段具有重要意义。为此，本文提出一种混合注意力机制，通过在软时序注意力机制的基础上引入语义注意力，使系统能够自主判断何时关注视觉上下文向量，何时关注语义输入。输入视频的视觉上下文向量由三维卷积神经网络（3D CNN）提取，随后采用带有注意力模块的长短期记忆网络（LSTM）对编码后的上下文向量进行解码。我们基于MSR-VTT数据集进行翻译并辅以后期编辑，构建了一个自建的印地语视频字幕数据集。实验结果表明，所提系统在该数据集上取得了0.369的CIDEr得分和0.393的METEOR得分，优于包括基于推理模块网络（RMN）在内的多种基线模型。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供