8 个月前

计算机视觉

计算机视觉

Yuan Liu Lin Ma Yifeng Zhang Wei Liu Shih-Fu Chang

摘要

时间动作提案生成是一项重要任务，旨在定位未剪辑视频中包含人类动作的视频片段。在本文中，我们提出了一种多粒度生成器（MGG），从不同的粒度视角利用视频视觉特征及位置嵌入信息进行时间动作提案生成。首先，我们提出使用双线性匹配模型来挖掘视频序列中的丰富局部信息。随后，我们将两个组件——即段落提案生产者（SPP）和帧级动作性生产者（FAP）——结合在一起，以两种不同的粒度执行时间动作提案任务。SPP 以特征金字塔的形式考虑整个视频，并从一个粗略的角度生成段落提案；而 FAP 则对每个视频帧进行更精细的动作性评估。我们提出的 MGG 可以端到端地进行训练。通过使用细粒度的帧级动作性信息对段落提案进行时间调整，MGG 在公开的 THUMOS-14 和 ActivityNet-1.3 数据集上实现了优于现有方法的性能。此外，我们还利用现有的动作分类器对 MGG 生成的提案进行分类，从而在视频检测任务上相比竞争方法取得了显著改进。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Yuan Liu Lin Ma Yifeng Zhang Wei Liu Shih-Fu Chang

摘要

时间动作提案生成是一项重要任务，旨在定位未剪辑视频中包含人类动作的视频片段。在本文中，我们提出了一种多粒度生成器（MGG），从不同的粒度视角利用视频视觉特征及位置嵌入信息进行时间动作提案生成。首先，我们提出使用双线性匹配模型来挖掘视频序列中的丰富局部信息。随后，我们将两个组件——即段落提案生产者（SPP）和帧级动作性生产者（FAP）——结合在一起，以两种不同的粒度执行时间动作提案任务。SPP 以特征金字塔的形式考虑整个视频，并从一个粗略的角度生成段落提案；而 FAP 则对每个视频帧进行更精细的动作性评估。我们提出的 MGG 可以端到端地进行训练。通过使用细粒度的帧级动作性信息对段落提案进行时间调整，MGG 在公开的 THUMOS-14 和 ActivityNet-1.3 数据集上实现了优于现有方法的性能。此外，我们还利用现有的动作分类器对 MGG 生成的提案进行分类，从而在视频检测任务上相比竞争方法取得了显著改进。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供