Command Palette

Search for a command to run...

12 天前

用于微调MLLMs的定向推理注入

Chao Huang Zeliang Zhang Jiang Liu Ximeng Sun Jialian Wu Xiaodong Yu Ze Wang Chenliang Xu Emad Barsoum Zicheng Liu

摘要

多模态大语言模型(MLLMs)正迅速发展,但其推理能力往往仍落后于强大的纯文本模型。现有方法旨在弥合这一差距,通常依赖于大规模多模态推理数据的监督微调,或强化学习,但这些方法均需消耗大量资源。一种有前景的替代方案是模型融合(model merging),即在具备推理增强能力的大型语言模型(LLM)与多模态模型之间进行参数插值。然而,我们的分析表明,简单的融合并非“免费午餐”:其效果在不同模型家族间差异显著,部分模型(如 LLaVA、Idefics)能从中获益,而另一些模型(如 Qwen)则出现性能下降。为解决这一问题,我们提出了一种轻量级方法——定向推理注入微调(Directional Reasoning Injection for Fine-Tuning, DRIFT),用于多模态大语言模型。该方法在梯度空间中实现推理知识的迁移,同时保持多模态对齐的稳定性。DRIFT 预先计算一个推理先验,即推理增强模型与多模态模型在参数空间中的差异,随后在多模态微调过程中利用该先验对梯度进行偏置。该方法在保持标准监督微调流程简洁性的同时,实现了高效的推理能力迁移。在 MathVista 和 MathVerse 等多模态推理基准上的大量实验表明,DRIFT 在推理性能上 consistently 超越了简单融合和监督微调方法,且在仅需极低计算成本的情况下,达到甚至超越了训练开销高昂的方法的性能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于微调MLLMs的定向推理注入 | 论文 | HyperAI超神经