2 个月前

TransNet V2:一种有效的深度网络架构用于快速镜头过渡检测

Souček, Tomáš ; Lokoč, Jakub
TransNet V2:一种有效的深度网络架构用于快速镜头过渡检测
摘要

尽管自动镜头转换检测方法已经研究了二十多年,但至今尚未提出一种有效的、达到人类水平的通用模型。即使对于常见的镜头转换类型,如硬切或简单的渐变,分析视频内容的潜在多样性仍可能导致误检和漏检。近年来,基于深度学习的方法通过使用3D卷积架构和人工生成的训练数据显著提高了镜头转换检测的准确性。然而,百分之百的准确率仍然是一个难以实现的理想目标。在本文中,我们分享了当前版本的深度网络TransNet V2,该模型在受尊敬的基准测试中达到了最先进的性能。我们提供了一个经过训练的模型实例,以便社区能够立即用于高效分析大规模视频档案。此外,本文详细介绍了网络架构以及我们在训练过程中的经验,并提供了简单的代码片段以方便使用所提出的模型并可视化结果。

TransNet V2:一种有效的深度网络架构用于快速镜头过渡检测 | 最新论文 | HyperAI超神经