6 个月前

卷积神经网络

计算机视觉

Heeseung Kwon Manjin Kim Suha Kwak Minsu Cho

摘要

运动在视频理解中起着至关重要的作用。目前大多数先进的视频分类神经网络模型通常通过外部预训练方法提取的光流（optical flow）来引入运动信息。然而，由于逐帧光流计算量巨大，如何高效地融入运动信息始终是视频理解任务中的主要计算瓶颈。在本工作中，我们提出用内部轻量级的运动特征学习机制，替代传统的外部高计算成本的光流提取方法。为此，我们设计了一种可训练的神经模块——MotionSqueeze，用于高效提取运动特征。该模块可灵活插入任意神经网络的中间层，能够自动学习跨帧之间的对应关系，并将其转化为运动特征，直接输入后续网络层以提升预测性能。实验结果表明，该方法在四个标准动作识别基准数据集上均取得了显著性能提升，且仅带来极小的额外计算开销，在Something-Something-V1与V2数据集上甚至超越了当前最优水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Heeseung Kwon Manjin Kim Suha Kwak Minsu Cho

摘要

运动在视频理解中起着至关重要的作用。目前大多数先进的视频分类神经网络模型通常通过外部预训练方法提取的光流（optical flow）来引入运动信息。然而，由于逐帧光流计算量巨大，如何高效地融入运动信息始终是视频理解任务中的主要计算瓶颈。在本工作中，我们提出用内部轻量级的运动特征学习机制，替代传统的外部高计算成本的光流提取方法。为此，我们设计了一种可训练的神经模块——MotionSqueeze，用于高效提取运动特征。该模块可灵活插入任意神经网络的中间层，能够自动学习跨帧之间的对应关系，并将其转化为运动特征，直接输入后续网络层以提升预测性能。实验结果表明，该方法在四个标准动作识别基准数据集上均取得了显著性能提升，且仅带来极小的额外计算开销，在Something-Something-V1与V2数据集上甚至超越了当前最优水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供