6 个月前

计算机视觉

Yunjae Jung Dahun Kim Sanghyun Woo Kyungsu Kim Sungjin Kim In So Kweon

摘要

视觉叙事是一项基于图像序列生成简短故事的任务。与现有的图像描述（visual captioning）不同，视觉叙事不仅要求对图像内容进行事实性描述，还强调人类般的叙述风格与语义表达。然而，现有的VIST数据集每条故事仅包含少量且固定的图像数量，这导致视觉叙事的主要挑战在于如何通过富有想象力的叙述来填补图像之间的视觉空白。为此，本文提出一种显式学习机制，用于构想能够弥合视觉间隙的故事情节。在训练过程中，从输入图像序列中随机移除一张或多张图像，训练网络在缺失图像的情况下仍能生成完整且合理的故事情节。此外，本文还提出一种“藏匿与讲述”（hide-and-tell）模型，该模型旨在学习图像序列之间的非局部关系，并对传统的基于RNN的模型进行优化与提升。实验结果表明，所提出的“藏匿与讲述”机制以及网络架构在视觉叙事任务中具有显著有效性，且在自动评估指标上优于以往的最先进方法。最后，我们通过定性分析展示了模型在视觉间隙上进行故事情节插值的 learned 能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Yunjae Jung Dahun Kim Sanghyun Woo Kyungsu Kim Sungjin Kim In So Kweon

摘要

视觉叙事是一项基于图像序列生成简短故事的任务。与现有的图像描述（visual captioning）不同，视觉叙事不仅要求对图像内容进行事实性描述，还强调人类般的叙述风格与语义表达。然而，现有的VIST数据集每条故事仅包含少量且固定的图像数量，这导致视觉叙事的主要挑战在于如何通过富有想象力的叙述来填补图像之间的视觉空白。为此，本文提出一种显式学习机制，用于构想能够弥合视觉间隙的故事情节。在训练过程中，从输入图像序列中随机移除一张或多张图像，训练网络在缺失图像的情况下仍能生成完整且合理的故事情节。此外，本文还提出一种“藏匿与讲述”（hide-and-tell）模型，该模型旨在学习图像序列之间的非局部关系，并对传统的基于RNN的模型进行优化与提升。实验结果表明，所提出的“藏匿与讲述”机制以及网络架构在视觉叙事任务中具有显著有效性，且在自动评估指标上优于以往的最先进方法。最后，我们通过定性分析展示了模型在视觉间隙上进行故事情节插值的 learned 能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供