7 个月前

摘要

在这项工作中，我们提出了一种新颖的方法，通过应用概念上简单且计算高效的软自注意力机制来实现监督下的基于关键镜头的视频摘要生成。目前最先进的方法通常利用双向循环网络（如BiLSTM）结合注意力机制。这些网络相比全连接网络而言，实现复杂且计算需求高。为此，我们提出了一种基于简单自注意力机制的网络用于视频摘要生成，该网络在训练过程中仅需一次前向传递和一次反向传递即可完成整个序列到序列的转换。我们的方法在该领域的两个常用基准数据集TvSum和SumMe上取得了新的最佳结果。

源 PDF