
摘要
当前,时间事件或动作定位的研究主要聚焦于单个摄像头捕获的动作。然而,在真实场景中,许多复杂事件或动作往往由多个位于不同位置的摄像头以多段镜头的形式记录下来。为此,本文提出了一项新的、具有挑战性的任务——多镜头时间事件定位(multi-shot temporal event localization),并相应构建了一个大规模数据集,名为 MUlti-Shot EventS(MUSES)。MUSES 数据集共包含 31,477 个事件实例,覆盖总计 716 小时的视频内容。该数据集的核心特征在于频繁的镜头切换,平均每事件包含 19 个镜头,每视频平均包含 176 个镜头,由此导致事件内部存在显著的视觉与语义变化。我们的全面评估表明,当前最先进的时间动作定位方法在 IoU=0.5 条件下的平均精度(mAP)仅达到 13.1%。作为次要贡献,我们提出一种简单有效的基线方法,用于应对事件内部的多样性变化,在 MUSES 数据集上取得了 18.9% 的 mAP(IoU=0.5),在 THUMOS14 数据集上则达到 56.9% 的 mAP(IoU=0.5)。为推动该方向的研究发展,我们已将 MUSES 数据集及项目代码公开发布于 https://songbai.site/muses/。