UDK-VQA 数据生成框架
UDK-VQA 框架是由上海人工智能实验室、北京理工大学、浙江大学、香港大学于 2024 年联合提出的一个数据生成框架,旨在辅助多模态大模型对实时信息进行反馈。相关论文成果为「SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge」。
UDK-VQA 框架的核心目的是为了增强现有的大型视觉语言模型 (LVLMs),使其能够处理关于最新知识的视觉上的问题回答 (VQA) 。由于大型视觉语言模型无法频繁更新以包含最新的知识,因此在许多情况下,它们在处理需要最新信息的场景时会失败。例如,如果一个 LVLM 在 2024 年 1 月发布,它就不知道 2024 年 4 月发布的电影的主题曲歌手是谁。
为了解决这个问题,研究者们提出了一个即插即用的框架,通过互联网搜索在推理期间为 LVLMs 提供最新的知识,即所谓的互联网增强生成 (IAG) 。 UDK-VQA 框架通过训练一个分层过滤模型来有效且高效地从搜索引擎返回的网页中找到最有帮助的内容,以提示 LVLMs 最新的知识。
此外,为了训练模型并评估框架的性能,研究者们提出了一个自动生成与新闻相关的 VQA 样本以构建数据集的流程,该数据集被命名为 UDK-VQA 。