HyperAI超神经

SearchLVLMs 框架

SearchLVLMs 框架是由上海人工智能实验室 (OpenGVLab) 、北京理工大学、浙江大学以及香港大学于 2024 年联合提出的一种即插即用的解决方案,旨在增强现有的大型视觉语言模型 (LVLMs) 处理关于最新知识的视觉上的问题回答 (VQA) 的能力。相关论文成果为「SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge」。

大型视觉语言模型(如 LLaVA 系列)由于无法频繁更新,对最新知识(例如新电影的主题歌歌手)一无所知,因此在许多情况下表现不佳。 SearchLVLMs 框架通过在推理阶段提供互联网搜索增强,帮助 LVLMs 获取最新知识,从而改善这一问题。

SearchLVLMs 框架主要包括 3 个部分:查询生成、搜索引擎调用和分层过滤。在查询生成阶段,框架需要充分理解问题和图像,以转化为适用于搜索引擎的文本查询。在搜索引擎调用阶段,用户可以根据问题类型选择调用的搜索引擎类别。最后,在分层过滤阶段,框架通过训练一个模型来有效地从搜索引擎返回的网页中找到最有帮助的内容。

实验结果表明,SearchLVLMs 框架能够显著提升 LVLMs 在回答需要最新知识的问题上的性能,准确率超过 GPT-4V 约 25% 。 SearchLVLMs 框架的提出,为多模态大模型提供了一种即插即用的解决方案,使其能够无缝整合最新的互联网知识,提高了模型对实时信息的反馈能力。