7 个月前

多模态表征

计算机视觉

Xun Xu Timothy Hospedales Shaogang Gong

摘要

动作识别的类别数量正在迅速增长。因此，为每个类别收集足够的训练数据以学习传统模型变得越来越困难。这一问题可以通过日益流行的“零样本学习”（Zero-Shot Learning, ZSL）范式得到缓解。在该框架中，构建了视觉特征与人类可解释的语义描述之间的映射关系，使得在没有训练数据的情况下也能识别新的类别。现有的零样本学习研究主要集中在图像数据和基于属性的语义表示上。本文中，我们探讨了现代视频动作识别任务中的零样本识别问题，利用语义词向量空间作为嵌入视频和类别标签的公共空间。这更具挑战性，因为包含复杂动作的视频的空间-时间特征与语义空间之间的映射关系更加复杂且难以学习。我们证明了一种简单的自训练和数据增强策略可以显著提高这种映射的有效性。在包括HMDB51和UCF101在内的多个人体动作数据集上的实验表明，我们的方法实现了当前最先进的零样本动作识别性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

计算机视觉

Xun Xu Timothy Hospedales Shaogang Gong

摘要

动作识别的类别数量正在迅速增长。因此，为每个类别收集足够的训练数据以学习传统模型变得越来越困难。这一问题可以通过日益流行的“零样本学习”（Zero-Shot Learning, ZSL）范式得到缓解。在该框架中，构建了视觉特征与人类可解释的语义描述之间的映射关系，使得在没有训练数据的情况下也能识别新的类别。现有的零样本学习研究主要集中在图像数据和基于属性的语义表示上。本文中，我们探讨了现代视频动作识别任务中的零样本识别问题，利用语义词向量空间作为嵌入视频和类别标签的公共空间。这更具挑战性，因为包含复杂动作的视频的空间-时间特征与语义空间之间的映射关系更加复杂且难以学习。我们证明了一种简单的自训练和数据增强策略可以显著提高这种映射的有效性。在包括HMDB51和UCF101在内的多个人体动作数据集上的实验表明，我们的方法实现了当前最先进的零样本动作识别性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供