摘要
本文提出了一种新型的无监督视频摘要生成方法。所提出的架构将Actor-Critic模型嵌入生成对抗网络(Generative Adversarial Network, GAN)中,并将重要视频片段的选择(用于构建摘要的片段)建模为一个序列生成任务。Actor与Critic在该框架中协同参与一个动态博弈过程,逐步引导关键视频片段的选取;在每一步博弈中,二者的选择会触发判别器(Discriminator)给出相应的奖励信号。设计的训练流程使Actor与Critic能够共同探索动作空间,并自动学习到一套有效的关键片段选择策略。此外,本文还引入了一种在训练结束后用于选择最优模型的评估准则,该准则可实现对训练过程中未从数据中学习的超参数(如正则化因子σ)的自动优选。在两个基准数据集(SumMe和TVSum)上的实验评估表明,所提出的AC-SUM-GAN模型在无监督方法中表现稳定且优异,其性能不仅显著优于现有无监督方法,甚至在多数指标上可与监督学习方法相媲美,达到当前最优(State-of-the-Art, SoA)水平。