11 天前
AutoShot:一个短视频数据集与最先进镜头边界检测
Wentao Zhu, Yufang Huang, Xiufeng Xie, Wenxian Liu, Jincan Deng, Debing Zhang, Zhangyang Wang, Ji Liu

摘要
短视频因其爆炸性的人气,已成为新兴社交媒体趋势的主导形式。当前主流的短视频平台,如快手(Kwai)、TikTok、Instagram Reels 以及 YouTube Shorts,已深刻改变了人们内容消费与创作的方式。在视频内容的生成与理解过程中,镜头边界检测(Shot Boundary Detection, SBD)是诸多应用场景中最为关键的组成部分之一。本文发布了一个全新的公开短视频镜头边界检测数据集,命名为 SHOT,该数据集包含 853 个完整的短视频,共计 11,606 个镜头标注,其中在 200 个测试视频中包含 2,716 个高质量镜头边界标注。基于这一新的数据资源,我们提出了一种优化视频 SBD 模型设计的方法,通过在融合多种先进 3D 卷积网络(3D ConvNets)与 Transformer 架构的神经架构搜索空间中进行搜索,构建出高效的模型结构。我们所提出的自动化方法名为 AutoShot,在新构建的 SHOT 数据集上进行训练与评估时,其 F1 分数显著优于此前的最先进方法,例如相较于 TransNetV2 提升了 4.2%。为进一步验证 AutoShot 架构的泛化能力,我们将其直接应用于另外三个公开数据集:ClipShots、BBC 和 RAI,结果表明,AutoShot 在这三个数据集上的 F1 分数分别优于现有最先进方法 1.1%、0.9% 和 1.2%。SHOT 数据集及代码已开源,可访问 https://github.com/wentaozhu/AutoShot.git 获取。