2 个月前

通过LLM编码和伪事件调节整合先验知识以实现视频片段检索

Jiang, Yiyang ; Zhang, Wengyu ; Zhang, Xulu ; Wei, Xiaoyong ; Chen, Chang Wen ; Li, Qing
通过LLM编码和伪事件调节整合先验知识以实现视频片段检索
摘要

本文研究了利用大型语言模型(LLMs)整合一般知识并将其作为伪事件先验,以优化视频片段检索(VMR)模型中时间内容分布的可行性。本研究的动机源于在生成离散文本描述时使用大型语言模型作为解码器的局限性,这限制了它们在连续输出如显著性分数和帧间嵌入(inter-frame embeddings)中的直接应用,后者用于捕捉帧间关系。为克服这些局限性,我们提出使用大型语言模型的编码器而非解码器。通过可行性研究,我们证明了即使未经文本嵌入训练,大型语言模型编码器也能有效改进多模态嵌入中的概念间关系。此外,我们还展示了大型语言模型编码器的改进能力可以转移到其他嵌入模型中,例如BLIP和T5,只要这些嵌入模型表现出与CLIP嵌入相似的概念间相似性模式。我们提出了一种将大型语言模型编码器集成到现有VMR架构中的通用框架,特别是在融合模块中。通过实验验证,我们展示了所提方法的有效性,并在VMR任务中达到了最先进的性能。源代码可从https://github.com/fletcherjiang/LLMEPET 获取。

通过LLM编码和伪事件调节整合先验知识以实现视频片段检索 | 最新论文 | HyperAI超神经