7 个月前

计算机视觉

计算机视觉

Mihir Jain Jan C. van Gemert Thomas Mensink Cees G. M. Snoek

摘要

本文的目标是在无需示例的情况下识别视频中的动作。与传统的零样本方法不同，我们不要求设计和指定属性分类器及类别到属性的映射，以实现从已见类别到未见类别的迁移。我们的主要贡献在于提出了一种名为“objects2action”的语义词嵌入方法，该方法由涵盖数千个物体类别的跳字模型生成。通过动作与物体亲和度的凸组合，为未见视频中的物体编码分配动作标签。为了适应动作的具体特性，我们的语义嵌入具有三个主要特点。首先，我们提出了一种机制来利用多词描述的动作和物体（multi-word descriptions）。其次，我们引入了每种动作最响应物体的自动选择方法。最后，我们展示了如何将我们的零样本方法扩展到视频中动作的空间-时间定位。在四个动作数据集上的实验表明了我们方法的潜力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

计算机视觉

Mihir Jain Jan C. van Gemert Thomas Mensink Cees G. M. Snoek

摘要

本文的目标是在无需示例的情况下识别视频中的动作。与传统的零样本方法不同，我们不要求设计和指定属性分类器及类别到属性的映射，以实现从已见类别到未见类别的迁移。我们的主要贡献在于提出了一种名为“objects2action”的语义词嵌入方法，该方法由涵盖数千个物体类别的跳字模型生成。通过动作与物体亲和度的凸组合，为未见视频中的物体编码分配动作标签。为了适应动作的具体特性，我们的语义嵌入具有三个主要特点。首先，我们提出了一种机制来利用多词描述的动作和物体（multi-word descriptions）。其次，我们引入了每种动作最响应物体的自动选择方法。最后，我们展示了如何将我们的零样本方法扩展到视频中动作的空间-时间定位。在四个动作数据集上的实验表明了我们方法的潜力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供