摘要
本文提出了一种提升无监督视频摘要任务中对抗训练效率的改进方法。我们的研究起点是SUM-GAN模型,该模型基于一个核心思想:所生成的摘要应具备使重建视频与原始视频在视觉上无法区分的能力。我们基于一个公开可用的该模型变体实现,该实现引入了线性压缩层以减少模型的可学习参数数量,并采用增量式训练策略来逐步优化网络各组件。在评估上述改进对模型性能的影响后,我们进一步提出了一种分步式、基于标签的学习机制,以显著提升模型对抗部分的训练效率。在评估模型整体效率之前,我们对所采用的评估协议进行了系统性研究,并在两个基准数据集SumMe和TVSum上考察了模型的潜在性能表现。实验结果表明,所提方法在与当前最先进方法的对比中展现出较强的竞争力。消融实验进一步验证了各项改进措施对模型性能的贡献,并凸显了所提出的分步式、基于标签的训练策略在提升对抗模块学习效率方面的显著优势。