HyperAIHyperAI

Command Palette

Search for a command to run...

GroundingME:通过多维评估揭示MLLMs中的视觉定位鸿沟

Abstract

视觉定位(Visual Grounding)是指从自然语言描述中定位物体,是连接语言理解与视觉理解的关键桥梁。尽管多模态大语言模型(MLLMs)在现有基准测试中取得了令人瞩目的成绩,但一个根本性问题仍悬而未决:MLLMs能否像人类一样具备深层次的、类人般的视觉语言对齐能力,还是仅仅在简化数据集上进行表面化的模式匹配?当前的基准测试难以反映现实世界中的复杂性——在真实场景中,人类能够轻松处理模糊指代,并准确识别出无法进行定位的查询。为系统性地评估MLLMs的真实能力,我们提出了GroundingME基准,该基准从四个关键维度对模型进行严格挑战:(1)判别性(Discriminative)——区分高度相似的物体;(2)空间性(Spatial)——理解复杂的空间关系描述;(3)有限性(Limited)——处理遮挡或极小物体;(4)拒绝能力(Rejection)——识别无法定位的查询。通过结合自动化生成与人工验证的精心筛选,我们构建了1,005个具有高度挑战性的样本,真实模拟了现实世界中的复杂情境。对25个当前最先进的MLLMs进行评估发现,模型间存在显著的能力鸿沟:表现最佳的模型准确率仅为45.1%,而大多数模型在拒绝任务上的得分仍为0%——它们并非识别出无法定位的查询,而是机械性地“幻觉”出并不存在的对象,暴露出严重的安全风险,制约其在实际场景中的部署应用。为进一步提升性能,我们探索了两种改进策略:(1)推理时扩展(test-time scaling)通过分析推理轨迹选择最优响应,使复杂定位任务的准确率最高提升2.9%;(2)混合数据训练(data-mixture training)引导模型学习识别无法定位的查询,将拒绝任务的准确率从0%显著提升至27.9%。因此,GroundingME不仅是一个诊断工具,揭示了当前MLLMs在视觉定位能力上的深层局限,更提供了一条迈向人类水平视觉语言对齐能力的清晰路线图。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供