6 个月前

计算机视觉

计算机视觉

Gorjan Radevski Marie-Francine Moens Tinne Tuytelaars

摘要

识别人类动作本质上是一个时空推理问题，因此在一定程度上应具备对人类及所涉物体外观变化的不变性。基于这一假设，本文采用以物体为中心的方法进行动作识别。尽管此前已有诸多研究探讨过此类设定，但仍有两个关键问题尚不明确：（i）精心设计的基于时空布局的方法在识别人类动作方面表现如何；（ii）应如何、以及在何种时机融合来自布局模型与外观模型的信息。本文的主要研究重点是组合式/少样本动作识别，我们主张在时空布局（即物体边界框的配置）上使用多头注意力机制（已被证明在空间推理中具有有效性）。我们评估了多种将视频外观信息注入系统的策略，并在背景杂乱的动作识别任务上对所提方法进行了基准测试。在Something-Else和Action Genome数据集上，我们展示了：（i）如何将多头注意力机制扩展应用于基于时空布局的动作识别；（ii）如何通过与基于布局的模型融合来提升基于外观模型的性能；（iii）即使在非组合式的、背景杂乱的视频数据集上，布局模型与外观模型的融合仍能显著提升整体识别性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Gorjan Radevski Marie-Francine Moens Tinne Tuytelaars

摘要

识别人类动作本质上是一个时空推理问题，因此在一定程度上应具备对人类及所涉物体外观变化的不变性。基于这一假设，本文采用以物体为中心的方法进行动作识别。尽管此前已有诸多研究探讨过此类设定，但仍有两个关键问题尚不明确：（i）精心设计的基于时空布局的方法在识别人类动作方面表现如何；（ii）应如何、以及在何种时机融合来自布局模型与外观模型的信息。本文的主要研究重点是组合式/少样本动作识别，我们主张在时空布局（即物体边界框的配置）上使用多头注意力机制（已被证明在空间推理中具有有效性）。我们评估了多种将视频外观信息注入系统的策略，并在背景杂乱的动作识别任务上对所提方法进行了基准测试。在Something-Else和Action Genome数据集上，我们展示了：（i）如何将多头注意力机制扩展应用于基于时空布局的动作识别；（ii）如何通过与基于布局的模型融合来提升基于外观模型的性能；（iii）即使在非组合式的、背景杂乱的视频数据集上，布局模型与外观模型的融合仍能显著提升整体识别性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

重新审视时空布局在组合动作识别中的应用 | 论文 | HyperAI超神经