17 天前

重新审视时空布局在组合动作识别中的应用

Gorjan Radevski, Marie-Francine Moens, Tinne Tuytelaars
重新审视时空布局在组合动作识别中的应用
摘要

识别人类动作本质上是一个时空推理问题,因此在一定程度上应具备对人类及所涉物体外观变化的不变性。基于这一假设,本文采用以物体为中心的方法进行动作识别。尽管此前已有诸多研究探讨过此类设定,但仍有两个关键问题尚不明确:(i)精心设计的基于时空布局的方法在识别人类动作方面表现如何;(ii)应如何、以及在何种时机融合来自布局模型与外观模型的信息。本文的主要研究重点是组合式/少样本动作识别,我们主张在时空布局(即物体边界框的配置)上使用多头注意力机制(已被证明在空间推理中具有有效性)。我们评估了多种将视频外观信息注入系统的策略,并在背景杂乱的动作识别任务上对所提方法进行了基准测试。在Something-Else和Action Genome数据集上,我们展示了:(i)如何将多头注意力机制扩展应用于基于时空布局的动作识别;(ii)如何通过与基于布局的模型融合来提升基于外观模型的性能;(iii)即使在非组合式的、背景杂乱的视频数据集上,布局模型与外观模型的融合仍能显著提升整体识别性能。