6 个月前

计算机视觉

Shreyank N Gowda Marcus Rohrbach Frank Keller Laura Sevilla-Lara

摘要

我们针对视频动作识别中的数据增强问题提出解决方案。现有的视频数据增强策略通常为人工设计，其对可能的增强样本空间的采样方式要么完全随机，无法判断哪些增强样本更优，要么依赖启发式规则。为此，我们提出学习何种视频样本更有利于动作识别，并仅选择高质量样本用于增强。具体而言，我们采用前景视频与背景视频拼接的方式作为数据增强方法，从而生成多样且逼真的新样本。关键在于，我们无需实际进行视频拼接，即可学习判断哪些视频对适合进行增强。这一方法显著缩小了可能的增强空间，带来双重优势：一方面降低了计算开销，另一方面提升了最终分类器的准确率，因为所选增强样本的质量普遍高于平均水准。我们在多种训练设置下进行了实验验证，涵盖少样本学习、半监督学习和全监督学习。在Kinetics、UCF101和HMDB51等多个基准数据集上，我们的方法在所有设置下均持续优于现有方法和基线模型，并在数据有限的场景下取得了新的最先进性能。尤其在半监督设置下，性能提升最高可达8.6%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Shreyank N Gowda Marcus Rohrbach Frank Keller Laura Sevilla-Lara

摘要

我们针对视频动作识别中的数据增强问题提出解决方案。现有的视频数据增强策略通常为人工设计，其对可能的增强样本空间的采样方式要么完全随机，无法判断哪些增强样本更优，要么依赖启发式规则。为此，我们提出学习何种视频样本更有利于动作识别，并仅选择高质量样本用于增强。具体而言，我们采用前景视频与背景视频拼接的方式作为数据增强方法，从而生成多样且逼真的新样本。关键在于，我们无需实际进行视频拼接，即可学习判断哪些视频对适合进行增强。这一方法显著缩小了可能的增强空间，带来双重优势：一方面降低了计算开销，另一方面提升了最终分类器的准确率，因为所选增强样本的质量普遍高于平均水准。我们在多种训练设置下进行了实验验证，涵盖少样本学习、半监督学习和全监督学习。在Kinetics、UCF101和HMDB51等多个基准数据集上，我们的方法在所有设置下均持续优于现有方法和基线模型，并在数据有限的场景下取得了新的最先进性能。尤其在半监督设置下，性能提升最高可达8.6%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供