Command Palette
Search for a command to run...
V*:作为多模态LLM核心机制的引导式视觉搜索
V*:作为多模态LLM核心机制的引导式视觉搜索
Penghao Wu Saining Xie
摘要
当我们环顾四周并执行复杂任务时,如何观察以及有选择性地处理所见信息至关重要。然而,当前多模态大语言模型(MLLMs)缺乏有效的视觉搜索机制,这限制了它们在处理高分辨率、视觉信息密集的图像时聚焦关键视觉细节的能力。为解决这一问题,我们提出 V——一种由大语言模型(LLM)引导的视觉搜索机制,该机制利用 LLM 中蕴含的世界知识,实现高效的视觉查询。当与 MLLM 结合使用时,该机制显著提升了模型在协作推理、上下文理解以及精准定位特定视觉元素方面的能力。这一整合催生了一种新型的 MLLM 元架构,命名为“Show, sEArch, and TelL”(SEAL)。此外,我们还构建了 VBench,一个专门用于评估 MLLMs 在处理高分辨率图像及关注视觉细节方面性能的基准测试平台。本研究强调了在多模态系统中引入视觉搜索能力的必要性。相关代码已开源,地址为:https://github.com/penghao-wu/vstar。