16 天前

邻居关系在视频场景检测中至关重要

{Zhangbin Qian, Zhilong Ou, Jiaxin Li, Hongxing Wang, Jiawei Tan}
邻居关系在视频场景检测中至关重要
摘要

视频场景检测旨在通过时间上连接多个镜头(shots),以获取语义紧凑的场景。该任务的关键在于通过相似性评估捕捉镜头之间的场景可区分性关联。然而,现有大多数方法依赖于普通的镜头间相似性,这可能导致来自不同场景的相似镜头被错误地连接在一起,同时阻碍属于同一场景但外观差异较大的镜头被合理融合为一个完整场景。本文提出一种名为NeighborNet的新方法,通过在局部时间范围内细致探索镜头的语义与时间邻域关系,将镜头上下文信息注入镜头间的相似性计算中。在此机制下,镜头间的相似性被重新度量为具备语义/时间邻域感知能力的相似性,从而使NeighborNet能够利用图卷积网络(Graph Convolutional Network, GCN)学习到融合上下文信息的镜头特征表示。结果表明,所学习到的镜头特征不仅有效抑制了来自不同场景的相似镜头之间的错误关联,还增强了同一场景中差异较大镜头之间的关联性。在多个公开基准数据集上的实验结果表明,所提出的NeighborNet在视频场景检测任务中取得了显著性能提升,尤其在平均精度(Average Precision, AP)指标上,相比已发布的最先进方法至少提升了6%。相关代码已开源,地址为:https://github.com/ExMorgan-Alter/NeighborNet。

邻居关系在视频场景检测中至关重要 | 最新论文 | HyperAI超神经