HyperAIHyperAI

Command Palette

Search for a command to run...

BERT-hLSTMs:用于视觉叙事的BERT与分层LSTM

Jing Su Qingyun Dai Frank Guerin Mian Zhou

摘要

视觉叙事是一项兼具创造性和挑战性的任务,旨在为一组图像序列自动生成类似故事的描述。以往的视觉叙事方法生成的描述缺乏连贯性,主要原因在于其采用词级序列生成方式,未能充分考虑句子间的依赖关系。为解决这一问题,本文提出一种新型的分层视觉叙事框架,该框架分别建模句子级与词级语义。我们采用基于Transformer的BERT模型获取句子和词的嵌入表示。随后,引入一种分层LSTM网络结构:底层LSTM接收来自BERT的句子向量表示,用于学习图像对应句子之间的依赖关系;顶层LSTM则负责生成相应的词向量表示,其输入来源于底层LSTM的输出。实验结果表明,所提模型在自动评估指标BLEU和CIDEr上均优于大多数相近的基线方法;同时,人工评估结果也进一步验证了该方法的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供