9 个月前

卷积神经网络

Gül Varol Ivan Laptev Cordelia Schmid

摘要

典型的人类动作持续数秒，并表现出特定的空间-时间结构。近期的方法试图捕捉这一结构，并利用卷积神经网络学习动作表示。然而，这些表示通常是在少数视频帧的层面上进行学习，未能对动作的完整时间范围进行建模。在本研究中，我们使用具有长时时间卷积（Long-Term Temporal Convolutions, LTC）的神经网络来学习视频表示。我们证明了增加时间范围的LTC-CNN模型可以提高动作识别的准确性。此外，我们还研究了不同低级表示（如视频像素的原始值和光流矢量场）的影响，并展示了高质量光流估计对于学习准确的动作模型的重要性。我们在两个具有挑战性的人类动作识别基准数据集UCF101（92.7%）和HMDB51（67.2%）上报告了最先进水平的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

9 个月前

卷积神经网络

Gül Varol Ivan Laptev Cordelia Schmid

摘要

典型的人类动作持续数秒，并表现出特定的空间-时间结构。近期的方法试图捕捉这一结构，并利用卷积神经网络学习动作表示。然而，这些表示通常是在少数视频帧的层面上进行学习，未能对动作的完整时间范围进行建模。在本研究中，我们使用具有长时时间卷积（Long-Term Temporal Convolutions, LTC）的神经网络来学习视频表示。我们证明了增加时间范围的LTC-CNN模型可以提高动作识别的准确性。此外，我们还研究了不同低级表示（如视频像素的原始值和光流矢量场）的影响，并展示了高质量光流估计对于学习准确的动作模型的重要性。我们在两个具有挑战性的人类动作识别基准数据集UCF101（92.7%）和HMDB51（67.2%）上报告了最先进水平的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供