7 个月前

Taehyeong Kim Min-Oh Heo Seonil Son Kyoung-Wha Park Byoung-Tak Zhang

摘要

多图像提示的故事生成任务，例如视觉故事数据集（VIST）挑战，旨在从给定的一系列图像中生成多个连贯的句子。主要难点在于如何在整体图像的背景下生成特定于每张图像的句子。本文提出了一种深度学习网络模型——GLAC Net，该模型通过结合全局-局部（glocal）注意力机制和上下文级联机制来生成视觉故事。该模型在两个层次上应用了注意力机制，即整体编码层和图像特征层，以构建依赖于图像的句子。虽然标准的注意力配置需要大量的参数，但GLAC Net通过从编码器输出或图像特征到句子生成器之间的硬连接以非常简单的方式实现了这一点。此外，通过逐句传递（级联）前一句的信息到下一句，进一步提高了生成故事的连贯性。我们在视觉故事数据集（VIST）上评估了GLAC Net的性能，并取得了与现有最先进技术相当的竞争结果。我们的代码和预训练模型可在此处获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

Taehyeong Kim Min-Oh Heo Seonil Son Kyoung-Wha Park Byoung-Tak Zhang

摘要

多图像提示的故事生成任务，例如视觉故事数据集（VIST）挑战，旨在从给定的一系列图像中生成多个连贯的句子。主要难点在于如何在整体图像的背景下生成特定于每张图像的句子。本文提出了一种深度学习网络模型——GLAC Net，该模型通过结合全局-局部（glocal）注意力机制和上下文级联机制来生成视觉故事。该模型在两个层次上应用了注意力机制，即整体编码层和图像特征层，以构建依赖于图像的句子。虽然标准的注意力配置需要大量的参数，但GLAC Net通过从编码器输出或图像特征到句子生成器之间的硬连接以非常简单的方式实现了这一点。此外，通过逐句传递（级联）前一句的信息到下一句，进一步提高了生成故事的连贯性。我们在视觉故事数据集（VIST）上评估了GLAC Net的性能，并取得了与现有最先进技术相当的竞争结果。我们的代码和预训练模型可在此处获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

GLAC Net：多图像提示故事生成的全局局部注意力级联网络 | 论文 | HyperAI超神经