HyperAIHyperAI

Command Palette

Search for a command to run...

无需缩放的缩放:面向细粒度多模态感知的区域到图像知识蒸馏

摘要

多模态大语言模型(Multimodal Large Language Models, MLLMs)在广泛的视觉理解任务中表现出色,但在细粒度感知方面仍面临挑战——此时关键证据往往微小且容易被全局上下文所淹没。近期提出的“以图思考”(Thinking-with-Images)方法通过在推理过程中迭代地对感兴趣区域进行缩放,缓解了这一问题,但其代价是因频繁调用工具和重新编码视觉信息而导致显著的延迟。为解决这一瓶颈,我们提出区域到图像的知识蒸馏(Region-to-Image Distillation)方法,将缩放操作从推理阶段的外部工具转变为训练阶段的内在机制,从而将“代理式缩放”(agentic zooming)的优势内化为MLLM单次前向传播即可完成的推理过程。具体而言,我们首先对微小裁剪区域进行深度聚焦,利用强大的教师模型生成高质量的视觉问答(VQA)数据;随后,将这些基于区域的监督信号蒸馏回完整的图像空间。经过此类数据训练后,较小的学生模型能够在无需外部工具调用的前提下,显著提升“一瞥式”细粒度感知能力。为进一步严格评估该能力,我们还构建了ZoomBench——一个包含845个样本的混合标注基准,覆盖六种细粒度感知维度,并设计了一种双视角评估协议,用于量化全局与局部区域之间“缩放差距”(zooming gap)的程度。实验结果表明,我们的模型在多个细粒度感知基准上均达到领先性能,同时在视觉推理、GUI代理等更广泛的多模态认知任务中也表现出增强的通用能力。此外,我们深入探讨了“以图思考”在何种场景下仍为必要,以及其优势在何种条件下可被有效蒸馏至单次前向传播中。相关代码已开源,访问地址为:https://github.com/inclusionAI/Zooming-without-Zooming

一句话总结

来自上海交通大学、蚂蚁集团及合作者的研究人员提出了“区域到图像蒸馏”方法,使多模态大语言模型(MLLM)在训练阶段内化细粒度感知能力——用单次推理取代昂贵的迭代放大——在 ZoomBench 上验证有效,并在无需运行时工具的情况下提升多模态任务性能。

主要贡献

  • 我们提出“区域到图像蒸馏”,一种训练方法:利用微裁剪区域生成高质量、区域对齐的视觉问答(VQA)监督信号,用于全图模型,使其在推理时无需工具或重新编码即可实现单次细粒度感知。
  • 我们推出 ZoomBench,一个包含 845 个 VQA 样本的混合标注基准,涵盖六个细粒度感知维度,并配以双视角协议,以量化全局-区域“放大差距”并严格评估模型敏锐度。
  • 实验表明,我们的蒸馏模型(ZwZ-4B/7B/8B)在细粒度感知任务上达到最先进水平,优于更大规模的 MLLM 和基于代理的“图像思考”方法,同时在视觉推理和 GUI 代理基准中提升通用多模态认知能力。

引言

作者利用“区域到图像蒸馏”解决多模态大语言模型(MLLM)在检测细粒度视觉细节(如微小文字或细微属性)时的长期挑战——全局上下文会淹没关键微证据。先前方法(如“图像思考”)依赖推理时的迭代、工具式放大,虽提升准确率,却因反复视觉重编码和工具调用引入高延迟。作者的核心贡献是将“放大”重构为训练阶段操作:使用强教师模型从微裁剪区域生成高质量 VQA 数据,再将区域对齐的监督信号蒸馏回训练于全图的小型学生模型,实现推理时无需工具的单次细粒度感知。作者还引入 ZoomBench——一个带双视角协议的混合标注基准,用于量化全局-区域“放大差距”,并证明其模型优于更大 MLLM 和代理基线,同时保持低延迟。

数据集

  • 作者使用“区域到图像蒸馏”方法构建 ZoomBench:强大 MLLM(Gemini-2.5-Pro)从裁剪的微区域生成问题和候选答案,再映射到全图,形成空间无对齐但证据支持的问答对。
  • ZoomBench 包含 845 个高质量、多样化且具挑战性的问答对,源自多个公开数据集的高分辨率图像(详见附录),训练与基准划分无重叠,防止数据泄露。
  • 每个实例包含一张全图和一个极小比例裁剪区域(通常 <10% 图像面积),作为视觉证据;此双视角设置支持“放大”能力与基于注意力的解释评估。
  • 人工验证:三位博士级标注者验证每个问答对在全图与裁剪图下的清晰性、可回答性与正确性;约 1,960 个原始样本筛选为 845 个,剔除过于简单或模糊案例。
  • 基准覆盖六个细粒度感知维度:细粒度计数、OCR、颜色属性、结构属性、材质属性和物体识别。
  • 评估包含 224 个开放式问题(带标准答案)和 621 个选择题;评分遵循附录 9.3 中的混合协议。
  • 对于训练数据,作者引入显式视觉对齐(边界框)以解决裁剪视图中的歧义,而基准有意省略空间对齐以测试模型鲁棒性。
  • 核心生成规则要求:基于图像、简洁、事实性答案;鼓励多样化问题类型(计数、OCR、结构、材质等);对低质量图像返回空列表。

方法

作者利用“区域到图像蒸馏”(R2I)从无标注图像语料库合成高保真度细粒度 VQA 训练数据,实现无需测试时工具调用的单次推理。核心思想是将强教师模型的区域视图专业知识蒸馏到学生模型的全局视图预测中,从而在训练阶段内化“放大”优势,同时保留推理效率。

流程始于以对象为中心的区域提议。给定原始图像 III,对象识别与分割系统生成候选边界框 {B1,,Bn}\{B_1, \ldots, B_n\}{B1,,Bn},每个覆盖至少一个可见对象。为针对细粒度感知,仅保留满足 Area(Bi)/Area(I)<τ\text{Area}(B_i)/\text{Area}(I) < \tauArea(Bi)/Area(I)<τ(如 τ=0.1\tau = 0.1τ=0.1)的微区域 RiR_iRi,确保决定性视觉证据稀疏且易在全局视图中被忽略。对每个此类区域 RRR,教师模型生成仅从 RRR 即可严格回答的感知导向问题 QR\mathcal{Q}_RQR——聚焦于微小文字、符号或小实例计数等细微线索。

为确保标签真实性而无需人工标注,多个教师模型独立回答每个问题 QQRQ \in \mathcal{Q}_RQQR 在裁剪区域 RRR 上。作者采用教师响应的多数投票;仅保留共识度高(如 >6/8 同意)的三元组 (R,Q,A)(R, Q, A)(R,Q,A),大幅减少幻觉或无效样本。

参考框架图:蒸馏阶段将这些区域级问答对映射回全图。接地变换 G(I,Q,B)\mathcal{G}(I, Q, B)G(I,Q,B) 将边界框 BBB 叠加到原图 III 上形成 II'I,并为 QQQ 添加空间约束形成 QQ'Q。由此得到增强训练三元组 (I,Q,A)(I', Q', A)(I,Q,A),其中 II'IQQ'Q 共同锚定问题至目标微区域,解决全局上下文中出现的指代歧义。作者进一步使用小型多模态模型过滤合成数据集,移除过于简单的样本,生成最终蒸馏数据集 Dsyn\mathcal{D}_{\text{syn}}Dsyn

学生模型随后在该合成数据上最大化期望任务奖励:

maxθE(I,Q,A)Dsyn,A^πθ(I,Q)[r(A^,A)],\operatorname*{max}_{\theta} \mathbb{E}_{(I', Q', A) \sim \mathcal{D}_{\mathrm{syn}}, \widehat{A} \sim \pi_{\theta}(\cdot | I', Q')} \left[ r(\widehat{A}, A) \right],θmaxE(I,Q,A)Dsyn,Aπθ(I,Q)[r(A,A)],

其中 πθ\pi_{\theta}πθ 为学生策略,r(A^,A)r(\widehat{A}, A)r(A,A) 为任务特定奖励函数。推理时移除边界框,但模型因训练期间提供的结构提示仍能关注关键微区域。这符合特权信息范式:模型在训练时学习 P(AI,Q,B)P(A \mid I, Q, B)P(AI,Q,B),测试时泛化至 P(AI,Q)P(A \mid I, Q)P(AI,Q)

如下图所示,整体架构与先前需推理时迭代工具调用的“图像思考”方法形成对比。R2I 将工具使用阶段(放大合成)与推理解耦,实现对全图的直接单次推理。作者将此形式化为工具动作蒸馏框架:工具调用动作 f()f(\cdot)f()(如放大)生成修改后的观测 I^\widehat{I}I,教师从中合成 (Q,A)(Q, A)(Q,A);逆变换 f1f^{-1}f1(I^,Q)(\widehat{I}, Q)(I,Q) 映射回 (I,Q^)(I, \widehat{Q})(I,Q),产生训练学生直接从全图解题的蒸馏数据集。

作者使用 Qwen3-VL-235B 进行区域提议与问题生成,Qwen3-VL-235B 和 GLM-4.5V 作为答案生成器。他们从 SA-1B、LAION、MetaCLIP、Visual Genome、CC12M 和 STPLS3D 中整理高分辨率图像池,经共识与难度过滤后合成 74K 训练样本。该方法可推广至其他工具动作(如翻转、3D 接地或专家模型调用),因核心蒸馏机制对合成时使用的具体工具保持无关性。

实验

  • “区域到图像蒸馏”使模型内化放大专业知识,实现无需迭代工具调用的单次前向传播细粒度感知。
  • ZwZ 变体在通用、特定及分布外基准上持续优于基线 Qwen-VL 模型,包括超越更大开源模型并在准确率上媲美闭源最先进模型。
  • 在蒸馏合成数据上训练比使用更大公共数据集或代理任务合成数据更有效,凸显细粒度高质量监督优于数据量的价值。
  • 该方法缩小全局与区域视图性能间的“放大差距”,尤其在结构、材质和计数任务上提升显著——这些任务中注意力稀释常见。
  • 训练时通过叠加边界框实现视觉接地显著增强注意力定位,提升现实世界泛化能力,且推理时无需边界框。
  • ZwZ 模型优于代理与工具使用基线,同时显著更快,证明推理时放大的收益可内化至模型权重。
  • 注意力图分析确认 ZwZ 模型更集中关注关键区域,与感知提升和减少感知疏漏一致。
  • 该方法验证“信息中性”图像动作(如放大)可有效蒸馏至模型,而“信息增益”动作(如网络搜索)仍需用于外部交互。

作者使用“区域到图像蒸馏”训练紧凑型视觉语言模型,使其在单次前向传播中实现细粒度感知,无需依赖推理时放大工具。结果表明这些模型持续优于更大开源基线,并在多样化基准上匹配或超越闭源模型,同时展现更优的注意力定位与现实任务泛化能力。该方法有效将基于工具的放大收益内化至模型权重,以显著更低推理延迟实现更高准确率。

作者使用“区域到图像蒸馏”在合成数据上训练紧凑型视觉语言模型,使其能从全图单次前向传播实现细粒度感知。结果表明,相比基线模型持续提升,并在通用、特定及分布外基准上优于更大开源系统,甚至超越依赖迭代放大的代理模型。该方法亦展示更优数据效率,内化工具使用收益,同时保持显著更低推理延迟。

作者使用“区域到图像蒸馏”训练模型,使其内化细粒度感知而无需测试时放大。结果表明,ZwZ 变体相比其 Qwen-VL 基线在关键图像区域持续实现更高注意力覆盖,表明任务相关视觉证据定位能力提升。此增强聚焦直接有助于缩小细粒度任务中全局与区域视图的性能差距。

作者使用“区域到图像蒸馏”结合图像上叠加边界框训练模型,使其内化细粒度感知而无需推理时放大。结果表明,此方法显著优于直接合成与其他接地策略,缩小全局与区域视图性能差距,同时提升对任务相关区域的注意力聚焦。相比在更大公共数据集或代理任务合成数据上训练,该方法更有效,以最小数据量在多样化基准上实现强泛化。

作者使用“区域到图像蒸馏”训练紧凑型视觉语言模型,使其在单次前向传播中实现细粒度感知,无需依赖推理时放大工具。结果表明,这些模型在多个基准上持续优于更大开源基线与代理系统,同时保持显著更低推理延迟。该方法有效内化区域聚焦推理优势,缩小全局与区域视图性能差距,无需测试时工具调用。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供