8 天前

基于编码器-解码器架构的印地语图像描述生成框架

{Sivaji Bandyopadhyay, Thoudam Doren Singh, Alok Singh}
摘要

近年来,图像字幕生成领域的研究活动吸引了众多学者的关注。本文致力于解决使用印地语视觉语料库(Hindi Visual Genome Dataset)进行印地语图像字幕生成的问题。印地语是印度的官方语言,也是使用人数最多的语言。在语言多样性显著的印度,提供一种能够帮助人们以母语理解图像中视觉实体的机制具有重要意义。本文提出了一种基于编码器-解码器架构的方法:采用卷积神经网络(Convolutional Neural Network, CNN)对图像的视觉特征进行编码,并在解码端结合单向长短期记忆网络(uni-directional LSTM)与双向长短期记忆网络(bi-directional LSTM)构建堆叠式长短期记忆网络(sLSTM),以生成印地语字幕。在视觉特征编码方面,采用基于VGG19的预训练模型提取图像特征;在解码端则使用sLSTM结构进行字幕生成。该模型在印地语视觉语料库数据集上进行了测试,以验证所提方法的有效性;同时,为进行交叉验证,还利用Flickr数据集对英文字幕生成性能进行了对比分析。实验结果表明,所提出的方法在定性和定量两个方面均优于当前最先进的印地语图像字幕生成技术。

基于编码器-解码器架构的印地语图像描述生成框架 | 最新论文 | HyperAI超神经