3 个月前
AOG-LSTM:一种用于视觉叙事的自适应注意力神经网络
{and Wei Wu, Rui Xie, Hui Wang, Yong Jiang, Hai-Tao Zheng, Wei Wang, Chia-Hao Chang, Jiacheng Yang, Hanqing Liu}
摘要
视觉叙事(Visual storytelling)是指为给定的图像序列生成相关连贯故事的任务,近年来受到广泛关注。然而,当前方法普遍采用通用的循环神经网络(如LSTM和GRU)作为解码器,限制了模型在该任务中的性能表现。其主要原因在于,这些模型无法有效区分不同类型的信息表征。此外,在训练过程中,基于先前真实序列条件化预测后续词的概率,容易在推理阶段引发误差累积问题。同时,现有缓解误差累积的方法通过替换参考词实现,但未充分考虑不同词汇在生成过程中的差异性影响。为解决上述问题,本文分别提出一种改进的神经网络结构——AOG-LSTM,以及一种新型训练策略——ARS(Adaptive Replacement Strategy)。AOG-LSTM能够根据预测不同词语的需要,自适应地对内部不同类型的信息表征分配恰当的关注度。在训练阶段,ARS沿用现有方法的思想,用模型预测结果替换参考句子中的部分词汇,但引入了选择网络与选择策略,以更精准地筛选出适合替换的词汇,从而更有效地提升模型性能。在VIST数据集上的实验结果表明,所提模型在多个常用评价指标上均显著优于多个强基准模型,验证了其有效性与优越性。