12 天前

DSNet:一种用于视频摘要的灵活检测-摘要网络

{and Jie Zhou, Jiahao Li, Jiwen Lu, Wencheng Zhu}
摘要

本文提出了一种面向监督式视频摘要的“检测-摘要”网络框架(Detect-to-Summarize Network, DSNet)。该框架包含基于锚点(anchor-based)与无锚点(anchor-free)两种实现方式。基于锚点的方法通过生成时间兴趣候选片段,以识别并定位视频序列中的代表性内容;而无锚点方法则摒弃了预定义的时间片段提案,直接预测视频帧的重要性得分及其所属片段的位置。与现有监督式视频摘要方法将摘要任务建模为缺乏时间一致性与完整性约束的回归问题不同,我们的兴趣检测框架首次通过时间兴趣检测的建模范式,显式地引入了时间一致性机制。具体而言,在基于锚点的方法中,我们首先采用多尺度间隔进行密集的时间兴趣候选片段采样,以适应兴趣片段在时长上的变化差异;随后提取这些候选片段的长程时间特征,用于兴趣候选片段的位置回归与重要性预测。值得注意的是,为确保生成摘要的准确性和完整性,正样本与负样本片段均被赋予相应的标注信息。在无锚点方法中,我们通过直接预测视频帧的重要性得分及片段位置,有效缓解了传统时间候选片段带来的局限性。特别地,该兴趣检测框架可灵活地嵌入到现有的各类监督式视频摘要方法中,具有良好的通用性与可扩展性。我们在SumMe与TVSum两个公开数据集上对基于锚点与无锚点的两种方法进行了全面评估。实验结果充分验证了所提方法在视频摘要任务中的有效性与优越性。

DSNet:一种用于视频摘要的灵活检测-摘要网络 | 最新论文 | HyperAI超神经