17 天前

HiSum:用于视频精彩片段检测与摘要的大规模数据集

HiSum:用于视频精彩片段检测与摘要的大规模数据集
摘要

视频亮点检测是一项旨在从长视频中自动识别最具吸引力片段的任务。该任务极具挑战性,因其目标是学习一种能够适用于现实世界中各类视频的通用亮点发现方法。由于“亮点”的定义具有内在主观性,不同个体对其理解存在差异,因此要检测出一致且有意义的亮点,以往的基准数据集均通过多位(5至20位)评分者进行标注。然而,人工标注成本高昂,导致现有大多数公开基准数据集规模极小,仅包含数十至数百个视频。这种数据规模的不足引发了诸多问题,例如评估结果不稳定以及训练-测试划分对结果敏感等。为此,我们提出了 Mr. HiSum——一个大规模的视频亮点检测与摘要数据集,包含31,892个视频,并为每个视频聚合了超过50,000名用户的可靠标注。我们通过跨数据集迁移实验与用户研究,实证验证了这些标注在帧重要性判断上的可靠性。