7 个月前

多模态表征

Simon Dobnik Nikolai Ilinykh

摘要

生成多句图像描述是一项具有挑战性的任务，要求模型能够生成连贯且准确的段落，全面描述图像中的显著对象。我们认为，在生成长序列的视觉场景描述时，融合多种信息源具有显著优势，这些信息包括：（i）感知信息，即图像的视觉特征；以及（ii）语义（语言）信息，即关于如何描述图像内容的语义知识。此外，我们还比较了在单一模态或其组合上使用两种不同池化机制的效果。实验结果表明，当结合特定的池化机制时，同时利用视觉输入与语言输入的模型能够生成准确且多样化的描述段落。自动评估与人工评估的结果均显示，将语义信息与视觉刺激共同嵌入段落生成模型中并非易事，这一发现为未来的研究提出了多种值得探索的实验方向。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

Simon Dobnik Nikolai Ilinykh

摘要

生成多句图像描述是一项具有挑战性的任务，要求模型能够生成连贯且准确的段落，全面描述图像中的显著对象。我们认为，在生成长序列的视觉场景描述时，融合多种信息源具有显著优势，这些信息包括：（i）感知信息，即图像的视觉特征；以及（ii）语义（语言）信息，即关于如何描述图像内容的语义知识。此外，我们还比较了在单一模态或其组合上使用两种不同池化机制的效果。实验结果表明，当结合特定的池化机制时，同时利用视觉输入与语言输入的模型能够生成准确且多样化的描述段落。自动评估与人工评估的结果均显示，将语义信息与视觉刺激共同嵌入段落生成模型中并非易事，这一发现为未来的研究提出了多种值得探索的实验方向。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供