
摘要
本文旨在解决在训练与测试使用不同数据集的情况下,识别人类动作的问题,其中测试视频在训练阶段既无标签也未提供。在此场景下,联合词典学习或领域迁移技术均无法适用。我们首先分析了在新数据集上测试时分类器性能不佳的原因,并量化了场景背景对动作表征及识别效果的影响。仅利用背景特征及概貌特征空间的划分,我们发现近年来数据集中背景场景具有较强的判别能力,足以支持以合理准确率对动作进行分类。随后,我们提出一种新的方法,通过结合运动、外观和显著性信息,在基于三维马尔可夫随机场(3D MRF)的框架下,获得视频中每个像素属于前景区域的置信度度量。此外,我们提出了多种利用前景置信度的策略:用于改进词袋(bag-of-words)词典、优化视频的直方图表示,以及构建一种新型基于直方图分解的表示方法与核函数。我们利用这些前景置信度,实现了在某一数据集上训练、在另一不同数据集上测试的动作识别任务。在多个数据集上进行了大量实验,结果表明,所提方法在跨数据集动作识别准确率方面显著优于基线方法。