6 个月前

计算机视觉

Biagio Brattoli Joseph Tighe Fedor Zhdanov Pietro Perona Krzysztof Chalupka

摘要

基于大规模数据集训练的深度学习（Deep Learning, DL）能够准确地将视频分类到数百个不同的类别中。然而，视频数据的标注成本极高。零样本学习（Zero-Shot Learning, ZSL）为这一问题提供了一种解决方案：ZSL仅需一次训练即可使模型泛化至训练数据中未出现过的新型任务类别。本文提出首个面向视频分类任务的端到端零样本学习算法。我们的训练方法基于近期视频分类领域的研究洞察，采用可训练的3D卷积神经网络（3D CNN）来学习视觉特征，这与以往视频ZSL方法中使用预训练特征提取器的做法形成鲜明对比。此外，我们对现有的基准测试范式进行了扩展：先前的方法虽旨在使测试任务在训练阶段保持未知，但未能真正实现这一目标。为此，我们引入训练与测试数据之间的域偏移（domain shift），并禁止针对特定测试数据集对ZSL模型进行定制化调整。实验结果表明，我们的方法在性能上显著超越现有最先进水平。相关代码、评估流程及模型权重已开源，可访问 GitHub 仓库：github.com/bbrattoli/ZeroShotVideoClassification。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Biagio Brattoli Joseph Tighe Fedor Zhdanov Pietro Perona Krzysztof Chalupka

摘要

基于大规模数据集训练的深度学习（Deep Learning, DL）能够准确地将视频分类到数百个不同的类别中。然而，视频数据的标注成本极高。零样本学习（Zero-Shot Learning, ZSL）为这一问题提供了一种解决方案：ZSL仅需一次训练即可使模型泛化至训练数据中未出现过的新型任务类别。本文提出首个面向视频分类任务的端到端零样本学习算法。我们的训练方法基于近期视频分类领域的研究洞察，采用可训练的3D卷积神经网络（3D CNN）来学习视觉特征，这与以往视频ZSL方法中使用预训练特征提取器的做法形成鲜明对比。此外，我们对现有的基准测试范式进行了扩展：先前的方法虽旨在使测试任务在训练阶段保持未知，但未能真正实现这一目标。为此，我们引入训练与测试数据之间的域偏移（domain shift），并禁止针对特定测试数据集对ZSL模型进行定制化调整。实验结果表明，我们的方法在性能上显著超越现有最先进水平。相关代码、评估流程及模型权重已开源，可访问 GitHub 仓库：github.com/bbrattoli/ZeroShotVideoClassification。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供