7 天前
基于知识图谱增强的Transformer模型用于视频字幕生成
Xin Gu, Guang Chen, Yufei Wang, Libo Zhang, Tiejian Luo, Longyin Wen

摘要
视频字幕生成旨在使用自然语言描述视频内容。尽管该领域已取得显著进展,但在实际应用中仍存在提升空间,主要受限于“长尾词汇”问题。本文提出一种基于知识图谱增强的文本Transformer模型(TextKG),用于视频字幕生成。值得注意的是,TextKG采用双流架构,由外部流(external stream)和内部流(internal stream)构成。外部流旨在引入额外知识,通过建模外部知识(如预构建的知识图谱)与视频内部信息(如显著目标区域、语音转录文本及视频字幕)之间的交互关系,有效缓解长尾词汇带来的挑战。与此同时,内部流则专注于挖掘视频中的多模态信息(如视频帧的视觉特征、语音转录文本及字幕内容),以保障生成字幕的质量。此外,两流之间还引入交叉注意力机制,实现信息共享,使双流能够相互协同,进一步提升生成结果的准确性。在四个具有挑战性的视频字幕数据集(YouCookII、ActivityNet Captions、MSRVTT 和 MSVD)上进行的大量实验表明,所提方法在性能上优于现有最先进方法。具体而言,在YouCookII数据集上,TextKG方法相较最优公开结果,绝对CIDEr得分提升了18.7%。