8 个月前

卷积神经网络

计算机视觉

Hussein Noureldien ; Gavves Efstratios ; Smeulders Arnold W. M.

摘要

本文重点关注视频中识别人类活动的时间方面，这是一个长期以来被低估的重要视觉线索。我们重新审视了传统上对活动的定义，并将其限定为复杂动作（Complex Action）：一系列具有较弱时间模式的一次性动作，这些动作共同服务于特定目的。相关研究通常使用固定内核大小的空间-时间3D卷积，这种方法过于僵化，难以捕捉复杂动作在时间范围上的多样性，且对于长距离时间建模来说太短。相比之下，我们采用了多尺度时间卷积，并降低了3D卷积的复杂度。由此产生了Timeception卷积层，该层能够推理长达数分钟的时间模式，比现有最佳相关工作的时间跨度长8倍。因此，Timeception在识别Charades、Breakfast Actions和MultiTHUMOS数据集中的人类活动方面取得了令人印象深刻的准确性。此外，我们还证明了Timeception能够学习长距离时间依赖关系，并容忍复杂动作的时间范围变化。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

Hussein Noureldien ; Gavves Efstratios ; Smeulders Arnold W. M.

摘要

本文重点关注视频中识别人类活动的时间方面，这是一个长期以来被低估的重要视觉线索。我们重新审视了传统上对活动的定义，并将其限定为复杂动作（Complex Action）：一系列具有较弱时间模式的一次性动作，这些动作共同服务于特定目的。相关研究通常使用固定内核大小的空间-时间3D卷积，这种方法过于僵化，难以捕捉复杂动作在时间范围上的多样性，且对于长距离时间建模来说太短。相比之下，我们采用了多尺度时间卷积，并降低了3D卷积的复杂度。由此产生了Timeception卷积层，该层能够推理长达数分钟的时间模式，比现有最佳相关工作的时间跨度长8倍。因此，Timeception在识别Charades、Breakfast Actions和MultiTHUMOS数据集中的人类活动方面取得了令人印象深刻的准确性。此外，我们还证明了Timeception能够学习长距离时间依赖关系，并容忍复杂动作的时间范围变化。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供