8 个月前

计算机视觉

Kaiyang Zhou Yu Qiao Tao Xiang

摘要

视频摘要旨在通过生成简短、精炼且多样化的摘要来促进大规模视频浏览，这些摘要能够代表原始视频的内容。在本文中，我们将视频摘要问题建模为一个顺序决策过程，并开发了一种深度摘要网络（DSN）来生成视频摘要。DSN为每个视频帧预测一个概率值，该值表示该帧被选中的可能性，然后根据这些概率分布采取行动选择帧，从而形成视频摘要。为了训练我们的DSN，我们提出了一种端到端的基于强化学习的框架，在该框架中设计了一个新颖的奖励函数，该函数综合考虑了生成摘要的多样性和代表性，并且完全不依赖于标签或用户交互。在训练过程中，奖励函数评估生成的摘要是否具有多样性和代表性，而DSN则通过学习生成更加多样化和更具代表性的摘要来争取更高的奖励。由于不需要标签，我们的方法可以实现完全无监督。我们在两个基准数据集上进行了广泛的实验，结果表明我们的无监督方法不仅优于其他最先进的无监督方法，而且与大多数已发表的有监督方法相当甚至更优。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Kaiyang Zhou Yu Qiao Tao Xiang

摘要

视频摘要旨在通过生成简短、精炼且多样化的摘要来促进大规模视频浏览，这些摘要能够代表原始视频的内容。在本文中，我们将视频摘要问题建模为一个顺序决策过程，并开发了一种深度摘要网络（DSN）来生成视频摘要。DSN为每个视频帧预测一个概率值，该值表示该帧被选中的可能性，然后根据这些概率分布采取行动选择帧，从而形成视频摘要。为了训练我们的DSN，我们提出了一种端到端的基于强化学习的框架，在该框架中设计了一个新颖的奖励函数，该函数综合考虑了生成摘要的多样性和代表性，并且完全不依赖于标签或用户交互。在训练过程中，奖励函数评估生成的摘要是否具有多样性和代表性，而DSN则通过学习生成更加多样化和更具代表性的摘要来争取更高的奖励。由于不需要标签，我们的方法可以实现完全无监督。我们在两个基准数据集上进行了广泛的实验，结果表明我们的无监督方法不仅优于其他最先进的无监督方法，而且与大多数已发表的有监督方法相当甚至更优。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供