8 个月前

摘要

随着解决现实世界视频挑战的需求不断增长，密集视频字幕生成（DVC）的兴趣也在逐渐上升。DVC涉及对未剪辑视频进行自动字幕生成和定位。多项研究表明，DVC面临诸多挑战，并引入了利用先验知识（如预训练和外部记忆）的改进方法。在本研究中，我们提出了一种模型，该模型借鉴了人类记忆层次结构和认知机制，利用以人类为中心的分层紧凑记忆。为了模拟类似人类的记忆回忆过程，我们构建了一个分层记忆模块和一个分层记忆读取模块。通过采用事件聚类和使用大型语言模型进行总结的方法，我们建立了一个高效的分层紧凑记忆系统。对比实验表明，这种分层记忆回忆过程显著提升了DVC的性能，在YouCook2和ViTT数据集上达到了最先进的水平。

源 PDF