17 天前

Learn2Augment:用于动作识别数据增强的视频合成学习

Shreyank N Gowda, Marcus Rohrbach, Frank Keller, Laura Sevilla-Lara
Learn2Augment:用于动作识别数据增强的视频合成学习
摘要

我们针对视频动作识别中的数据增强问题提出解决方案。现有的视频数据增强策略通常为人工设计,其对可能的增强样本空间的采样方式要么完全随机,无法判断哪些增强样本更优,要么依赖启发式规则。为此,我们提出学习何种视频样本更有利于动作识别,并仅选择高质量样本用于增强。具体而言,我们采用前景视频与背景视频拼接的方式作为数据增强方法,从而生成多样且逼真的新样本。关键在于,我们无需实际进行视频拼接,即可学习判断哪些视频对适合进行增强。这一方法显著缩小了可能的增强空间,带来双重优势:一方面降低了计算开销,另一方面提升了最终分类器的准确率,因为所选增强样本的质量普遍高于平均水准。我们在多种训练设置下进行了实验验证,涵盖少样本学习、半监督学习和全监督学习。在Kinetics、UCF101和HMDB51等多个基准数据集上,我们的方法在所有设置下均持续优于现有方法和基线模型,并在数据有限的场景下取得了新的最先进性能。尤其在半监督设置下,性能提升最高可达8.6%。