
摘要
视频摘要旨在通过生成简短、精炼且多样化的摘要来促进大规模视频浏览,这些摘要能够代表原始视频的内容。在本文中,我们将视频摘要问题建模为一个顺序决策过程,并开发了一种深度摘要网络(DSN)来生成视频摘要。DSN为每个视频帧预测一个概率值,该值表示该帧被选中的可能性,然后根据这些概率分布采取行动选择帧,从而形成视频摘要。为了训练我们的DSN,我们提出了一种端到端的基于强化学习的框架,在该框架中设计了一个新颖的奖励函数,该函数综合考虑了生成摘要的多样性和代表性,并且完全不依赖于标签或用户交互。在训练过程中,奖励函数评估生成的摘要是否具有多样性和代表性,而DSN则通过学习生成更加多样化和更具代表性的摘要来争取更高的奖励。由于不需要标签,我们的方法可以实现完全无监督。我们在两个基准数据集上进行了广泛的实验,结果表明我们的无监督方法不仅优于其他最先进的无监督方法,而且与大多数已发表的有监督方法相当甚至更优。