6 个月前

计算机视觉

Pushpak Bhattacharyya Sriparna Saha Chandresh S. Kanani

摘要

近年来，图像描述生成技术取得了显著进展。相比之下，视频描述生成仍处于初期阶段，这主要是由于视频相较于图像具有更复杂的结构。生成视频的段落级描述更是极具挑战性，其主要难点在于时间维度上的物体依赖关系以及复杂的物体间交互关系。近年来，针对多句视频描述生成的研究不断涌现。目前大多数方法采用两阶段范式：1）事件提议（event proposals），2）描述生成。尽管此类方法取得了较好的效果，但往往忽略了全局上下文信息的利用。为此，本文提出在生成视频描述时引入全局物体提议（global object proposals），以更好地捕捉视频中的整体语义信息。在ActivityNet数据集上的实验结果表明，采用全局物体提议能够生成更具信息量且更准确的描述。此外，本文还提出了三种评估生成器物体检测能力的指标。与当前先进方法的定性对比分析进一步验证了所提方法的有效性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Pushpak Bhattacharyya Sriparna Saha Chandresh S. Kanani

摘要

近年来，图像描述生成技术取得了显著进展。相比之下，视频描述生成仍处于初期阶段，这主要是由于视频相较于图像具有更复杂的结构。生成视频的段落级描述更是极具挑战性，其主要难点在于时间维度上的物体依赖关系以及复杂的物体间交互关系。近年来，针对多句视频描述生成的研究不断涌现。目前大多数方法采用两阶段范式：1）事件提议（event proposals），2）描述生成。尽管此类方法取得了较好的效果，但往往忽略了全局上下文信息的利用。为此，本文提出在生成视频描述时引入全局物体提议（global object proposals），以更好地捕捉视频中的整体语义信息。在ActivityNet数据集上的实验结果表明，采用全局物体提议能够生成更具信息量且更准确的描述。此外，本文还提出了三种评估生成器物体检测能力的指标。与当前先进方法的定性对比分析进一步验证了所提方法的有效性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供