2 个月前

TARN:时间注意力关系网络在少样本和零样本动作识别中的应用

Mina Bishay; Georgios Zoumpourlis; Ioannis Patras
TARN:时间注意力关系网络在少样本和零样本动作识别中的应用
摘要

本文提出了一种新颖的时间注意力关系网络(Temporal Attentive Relation Network, TARN),用于解决少样本和零样本动作识别问题。该网络的核心是一种元学习方法,该方法能够学习比较不同时间长度的表示,即在少样本动作识别中比较两个不同长度的视频,或在零样本动作识别中比较一个视频和一个语义表示(如词向量)。与其他少样本和零样本动作识别工作相比,我们的方法具有以下特点:a) 利用了注意力机制以实现时间对齐;b) 在视频片段级别上学习了对齐表示的深度距离度量。我们采用了基于场景的训练方案,并以端到端的方式训练网络。所提出的 方法在目标域内不需要任何微调,也不需要像记忆网络那样维护额外的表示。实验结果表明,所提出的架构在少样本动作识别方面优于现有最先进方法,并在零样本动作识别方面取得了有竞争力的结果。