6 个月前

计算机视觉

Alok Singh Thoudam Doren Singh Sivaji Bandyopadhyay

摘要

视频字幕生成是指将视频内容、事件及动作以简洁的文本形式进行概括，该技术在视频引导的机器翻译、视频情感分析以及为有需要的个体提供辅助等多个研究领域具有重要应用价值。本文介绍了用于VATEX-2020视频字幕挑战赛的系统框架。我们采用基于编码器-解码器的架构，其中视频的视觉特征通过三维卷积神经网络（3D Convolutional Neural Network, C3D）进行编码；在解码阶段，采用两个独立的长短期记忆网络（Long Short Term Memory, LSTM）分别融合视觉特征与输入字幕，最终通过两个LSTM输出的逐元素乘积生成最终字幕。实验结果表明，该模型在公开测试集和私有测试集上分别取得了BLEU分数0.20和0.22的成绩。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Alok Singh Thoudam Doren Singh Sivaji Bandyopadhyay

摘要

视频字幕生成是指将视频内容、事件及动作以简洁的文本形式进行概括，该技术在视频引导的机器翻译、视频情感分析以及为有需要的个体提供辅助等多个研究领域具有重要应用价值。本文介绍了用于VATEX-2020视频字幕挑战赛的系统框架。我们采用基于编码器-解码器的架构，其中视频的视觉特征通过三维卷积神经网络（3D Convolutional Neural Network, C3D）进行编码；在解码阶段，采用两个独立的长短期记忆网络（Long Short Term Memory, LSTM）分别融合视觉特征与输入字幕，最终通过两个LSTM输出的逐元素乘积生成最终字幕。实验结果表明，该模型在公开测试集和私有测试集上分别取得了BLEU分数0.20和0.22的成绩。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供