8 个月前

Penghao Wu Saining Xie

摘要

当我们环顾四周并执行复杂任务时，如何观察以及有选择性地处理所见信息至关重要。然而，当前多模态大语言模型（MLLMs）缺乏有效的视觉搜索机制，这限制了它们在处理高分辨率、视觉信息密集的图像时聚焦关键视觉细节的能力。为解决这一问题，我们提出 V——一种由大语言模型（LLM）引导的视觉搜索机制，该机制利用 LLM 中蕴含的世界知识，实现高效的视觉查询。当与 MLLM 结合使用时，该机制显著提升了模型在协作推理、上下文理解以及精准定位特定视觉元素方面的能力。这一整合催生了一种新型的 MLLM 元架构，命名为“Show, sEArch, and TelL”（SEAL）。此外，我们还构建了 VBench，一个专门用于评估 MLLMs 在处理高分辨率图像及关注视觉细节方面性能的基准测试平台。本研究强调了在多模态系统中引入视觉搜索能力的必要性。相关代码已开源，地址为：https://github.com/penghao-wu/vstar。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Penghao Wu Saining Xie

摘要

当我们环顾四周并执行复杂任务时，如何观察以及有选择性地处理所见信息至关重要。然而，当前多模态大语言模型（MLLMs）缺乏有效的视觉搜索机制，这限制了它们在处理高分辨率、视觉信息密集的图像时聚焦关键视觉细节的能力。为解决这一问题，我们提出 V——一种由大语言模型（LLM）引导的视觉搜索机制，该机制利用 LLM 中蕴含的世界知识，实现高效的视觉查询。当与 MLLM 结合使用时，该机制显著提升了模型在协作推理、上下文理解以及精准定位特定视觉元素方面的能力。这一整合催生了一种新型的 MLLM 元架构，命名为“Show, sEArch, and TelL”（SEAL）。此外，我们还构建了 VBench，一个专门用于评估 MLLMs 在处理高分辨率图像及关注视觉细节方面性能的基准测试平台。本研究强调了在多模态系统中引入视觉搜索能力的必要性。相关代码已开源，地址为：https://github.com/penghao-wu/vstar。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供