HyperAIHyperAI

Command Palette

Search for a command to run...

V*:作为多模态LLM核心机制的引导式视觉搜索

Penghao Wu Saining Xie

摘要

当我们环顾四周并执行复杂任务时,如何观察以及有选择性地处理所见信息至关重要。然而,当前多模态大语言模型(MLLMs)缺乏有效的视觉搜索机制,这限制了它们在处理高分辨率、视觉信息密集的图像时聚焦关键视觉细节的能力。为解决这一问题,我们提出 V——一种由大语言模型(LLM)引导的视觉搜索机制,该机制利用 LLM 中蕴含的世界知识,实现高效的视觉查询。当与 MLLM 结合使用时,该机制显著提升了模型在协作推理、上下文理解以及精准定位特定视觉元素方面的能力。这一整合催生了一种新型的 MLLM 元架构,命名为“Show, sEArch, and TelL”(SEAL)。此外,我们还构建了 VBench,一个专门用于评估 MLLMs 在处理高分辨率图像及关注视觉细节方面性能的基准测试平台。本研究强调了在多模态系统中引入视觉搜索能力的必要性。相关代码已开源,地址为:https://github.com/penghao-wu/vstar


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供