17 天前

探索利用时序线索提升标准化CDVA上的视频检索性能

{Yukyung Choi, Joungil Yun, Joonsoo Kim, Guentaek Lim, Won Jo}
摘要

随着大规模视频分析需求的不断增长,视频检索研究也日益活跃。2014年,ISO/IEC MPEG启动了针对视频分析紧凑描述子(Compact Descriptors for Video Analysis,简称CDVA)的标准化工作,目前该标准已正式发布。然而,由于用于性能验证的MPEG-CDVA数据集并未公开,导致标准化后的CDVA难以与其他方法进行直接比较。尽管已有多个版本的CDVA实验模型在后续研究中被持续开发与应用,但现有研究对CDVA框架中各模块的分析仍显不足。为此,本文对CDVA进行了自评估,系统分析了各个模块对检索任务的影响。为进一步克服自评估中发现的局限性,本文提出一种时序嵌套不变性池化(Temporal Nested Invariance Pooling,简称TNIP)方法,该方法通过改进CDVA中的一项关键特征——嵌套不变性池化(Nested Invariance Pooling,简称NIP),从而增强模型在时间维度上的鲁棒性。最后,我们在多个公开数据集上对现有CDVA方法与所提出方法进行了基准测试。实验结果表明,若结合本文提出的TNIP方法,CDVA框架能够显著提升视频检索性能。