2 个月前

检索到回答:使用冻结的大规模语言模型实现零样本视频问答

Junting Pan; Ziyi Lin; Yuying Ge; Xiatian Zhu; Renrui Zhang; Yi Wang; Yu Qiao; Hongsheng Li
检索到回答:使用冻结的大规模语言模型实现零样本视频问答
摘要

视频问答(VideoQA)在近期大规模语言模型(LLMs)的发展中取得了显著进步。其核心思想是将视觉信息转化为语言特征空间,从而充分利用大规模语言模型的能力。现有的VideoQA方法通常采用两种范式:(1) 学习跨模态对齐,以及 (2) 使用现成的字幕生成模型来描述视觉数据。然而,第一种设计需要在大量额外的多模态数据上进行昂贵的训练,而第二种方法则受到有限领域泛化的限制。为了解决这些局限性,提出了一种简单而有效的检索到回答(Retrieving-to-Answer, R2A)框架。给定一个输入视频,R2A首先使用预训练的多模态模型(例如CLIP)从通用文本语料库中检索出一组语义相似的文本。结合问题和检索到的文本,可以直接利用大规模语言模型(例如DeBERTa)生成所需的答案。无需进行跨模态微调,R2A使得所有关键组件(如大规模语言模型、检索模型和文本语料库)能够即插即用。在多个VideoQA基准上的广泛实验表明,尽管我们的R2A模型只有13亿参数且未经过微调,但其性能仍能超过经过近21亿多模态数据训练的61倍更大的Flamingo-80B模型。

检索到回答:使用冻结的大规模语言模型实现零样本视频问答 | 最新论文 | HyperAI超神经