16 天前

通过跨任务样本迁移实现联合视频摘要与时刻定位

{Yadong Mu, Hao Jiang}
通过跨任务样本迁移实现联合视频摘要与时刻定位
摘要

视频摘要近年来在计算机视觉领域引起了越来越多的关注。然而,标注数据的匮乏一直是该任务面临的关键瓶颈。为应对这一挑战,本文提出一种新方法,通过从相关任务(即视频时段定位,video moment localization)中迁移样本,以解决视频摘要任务中的数据稀缺问题。我们的核心洞察在于:标注的视频时段本质上也反映了视频的语义关键点,与视频摘要具有本质相似性。从某种意义上讲,视频摘要可被视为视频时段的一种稀疏且无冗余的表示形式。受此启发,我们提出了一种基于重要性传播的协同教学网络(Importance Propagation-based Collaborative Teaching Network, iPTNet)。该网络由两个独立模块构成,分别负责视频摘要和时段定位任务。每个模块均生成一个帧级重要性图,用于识别关键帧或关键时段。为实现跨任务样本迁移,我们设计了一个重要性传播模块,能够实现摘要引导型与定位引导型重要性图之间的相互转换,从而使得两个任务可以借助彼此的数据进行优化。此外,为避免因批处理联合训练而导致的误差累积问题,我们进一步提出一种协同教学机制,采用跨任务均值教学策略,实现两个任务的联合优化,并提供鲁棒的帧级教学信号。在多个视频摘要基准数据集上的大量实验表明,iPTNet显著优于此前最先进的视频摘要方法,展现出强大的性能表现,为解决视频摘要任务中的数据稀缺问题提供了一种有效且可行的解决方案。

通过跨任务样本迁移实现联合视频摘要与时刻定位 | 最新论文 | HyperAI超神经