2 个月前

BLIP-2:使用冻结的图像编码器和大型语言模型引导语言-图像预训练

Li, Junnan ; Li, Dongxu ; Savarese, Silvio ; Hoi, Steven
BLIP-2:使用冻结的图像编码器和大型语言模型引导语言-图像预训练
摘要

视觉-语言预训练的成本由于大规模模型的端到端训练而变得越来越高昂。本文提出了一种通用且高效的预训练策略——BLIP-2,该策略通过利用现成的冻结预训练图像编码器和冻结的大规模语言模型来引导视觉-语言预训练。BLIP-2 使用一个轻量级的查询Transformer(Querying Transformer)来弥合模态差距,该Transformer在两个阶段进行预训练。第一阶段从冻结的图像编码器中引导视觉-语言表示学习;第二阶段从冻结的语言模型中引导视觉到语言的生成学习。尽管可训练参数显著少于现有方法,BLIP-2 在各种视觉-语言任务上仍达到了最先进的性能。例如,在零样本VQAv2任务上,我们的模型以少54倍的可训练参数超越了Flamingo80B 8.7%。我们还展示了该模型在零样本图像到文本生成方面的能力,能够遵循自然语言指令。

BLIP-2:使用冻结的图像编码器和大型语言模型引导语言-图像预训练 | 最新论文 | HyperAI超神经