2 个月前

多模态抽象概括在How2视频中的应用

Shruti Palaskar; Jindrich Libovický; Spandana Gella; Florian Metze
多模态抽象概括在How2视频中的应用
摘要

本文研究了开放域视频的抽象摘要生成。与传统的文本新闻摘要不同,其目标不仅仅是“压缩”文本信息,而是提供一个流畅的文本摘要,该摘要从不同的源模态(在我们的案例中为视频和音频转录文本)收集并融合了信息。我们展示了如何利用具有层次注意力机制的多源序列到序列模型将不同模态的信息整合为连贯的输出,并比较了使用不同模态训练的各种模型。此外,我们在How2教学视频语料库上进行了初步实验。我们还提出了一种新的评估指标(Content F1),用于抽象摘要任务,该指标衡量的是摘要的语义充分性而非流畅性,后者通常由ROUGE和BLEU等指标覆盖。

多模态抽象概括在How2视频中的应用 | 最新论文 | HyperAI超神经