8 个月前

计算机视觉

计算机视觉

Moitreya Chatterjee Alexander G. Schwing

摘要

从图像生成段落是近年来受到广泛关注的一项重要任务，对于视频摘要、编辑以及支持残疾人具有重要意义。传统的图像描述方法在这方面存在不足，因为它们并非设计用于生成长而详细的信息描述。此外，简单地将多个短句（可能来自经典图像描述系统）拼接起来的方法也无法体现段落的复杂性：连贯的句子、全局一致的结构和多样性。为了解决这些挑战，我们提出通过“连贯向量”、“全局主题向量”以及变分自编码器（Variational Auto-Encoder, VAE）公式来建模段落与图像之间固有的模糊关联，从而增强段落生成技术。我们在两个数据集上展示了所开发方法的有效性，结果表明该方法在这两个数据集上的表现均优于现有的最先进技术。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Moitreya Chatterjee Alexander G. Schwing

摘要

从图像生成段落是近年来受到广泛关注的一项重要任务，对于视频摘要、编辑以及支持残疾人具有重要意义。传统的图像描述方法在这方面存在不足，因为它们并非设计用于生成长而详细的信息描述。此外，简单地将多个短句（可能来自经典图像描述系统）拼接起来的方法也无法体现段落的复杂性：连贯的句子、全局一致的结构和多样性。为了解决这些挑战，我们提出通过“连贯向量”、“全局主题向量”以及变分自编码器（Variational Auto-Encoder, VAE）公式来建模段落与图像之间固有的模糊关联，从而增强段落生成技术。我们在两个数据集上展示了所开发方法的有效性，结果表明该方法在这两个数据集上的表现均优于现有的最先进技术。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供