2 个月前

BLIP：通过自举语言-图像预训练实现统一的视觉-语言理解和生成

Li, Junnan ; Li, Dongxu ; Xiong, Caiming ; Hoi, Steven

摘要

视觉-语言预训练（VLP）在许多视觉-语言任务中提升了性能。然而，大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色。此外，性能的提升主要通过扩大数据集来实现，这些数据集中的图像-文本对是从网络上收集的带有噪声的数据，这并不是一个理想的监督来源。本文提出了一种新的VLP框架——BLIP，该框架能够灵活地应用于视觉-语言理解和生成任务。BLIP通过引导式生成标题有效利用了带噪声的网络数据，其中标题生成器生成合成标题，而过滤器则移除噪声标题。我们在广泛的视觉-语言任务上取得了最先进的结果，例如图像-文本检索（平均召回率@1提高2.7%）、图像描述（CIDEr分数提高2.8%）和视觉问答（VQA得分提高1.6%）。BLIP在直接以零样本方式迁移至视频-语言任务时也展示了强大的泛化能力。代码、模型和数据集已发布在 https://github.com/salesforce/BLIP。