2 个月前
Objects2Action:无需视频示例的动作分类与定位
Mihir Jain; Jan C. van Gemert; Thomas Mensink; Cees G. M. Snoek

摘要
本文的目标是在无需示例的情况下识别视频中的动作。与传统的零样本方法不同,我们不要求设计和指定属性分类器及类别到属性的映射,以实现从已见类别到未见类别的迁移。我们的主要贡献在于提出了一种名为“objects2action”的语义词嵌入方法,该方法由涵盖数千个物体类别的跳字模型生成。通过动作与物体亲和度的凸组合,为未见视频中的物体编码分配动作标签。为了适应动作的具体特性,我们的语义嵌入具有三个主要特点。首先,我们提出了一种机制来利用多词描述的动作和物体(multi-word descriptions)。其次,我们引入了每种动作最响应物体的自动选择方法。最后,我们展示了如何将我们的零样本方法扩展到视频中动作的空间-时间定位。在四个动作数据集上的实验表明了我们方法的潜力。