布朗大学研究者发现:仅微调输入嵌入即可让大语言模型实现近乎完美的推理表现
布朗大学的研究团队发现,仅通过微调大语言模型的输入嵌入层,即可使其在复杂推理任务中实现接近完美的表现,这一发现对理解大模型的推理能力及其应用前景具有深远意义。长期以来,学界对大语言模型是否具备“抽象推理”能力存在争议。部分研究指出,未经微调的预训练模型在类比、定量或视觉推理任务中表现不佳,因而质疑其具备真正的抽象思维。然而,该团队在复现Gendron等人(2024)实验的基础上,通过系统性分析发现,问题的关键可能不在于模型本身缺乏推理能力,而在于输入表示的适配程度。 研究团队通过实验证明,当仅对输入嵌入层进行微调,而冻结Transformer主干网络的所有参数时,模型在多个抽象推理任务上的表现显著提升,甚至在部分任务中达到完美准确率。这一结果与全模型微调的效果相当,说明大语言模型的推理能力具有极强的可迁移性,其核心能力已内嵌于预训练的结构中。更令人瞩目的是,该现象在视觉推理任务中同样成立:只要对视觉编码器进行微调,冻结的预训练语言模型即可高效完成跨模态推理。这表明,输入端的表征质量是决定模型在新任务中表现的关键。 这一发现引发了一个更深层次的思考:我们究竟如何定义“抽象推理者”?研究团队指出,当前的争论往往忽略了研究动机的本质——是为理解模型是否具备类人思维,还是为实现更高效、可部署的AI系统?两种目标需要不同的验证方式。若目标是科学理解,应避免干预模型;若目标是技术突破,则应积极优化输入适配。该研究强调,未来研究应首先明确“什么是抽象推理者”以及“为何要构建它”,才能避免在模糊的框架下得出误导性结论。 该成果获得领域主席和审稿人的一致肯定。审稿人认为,论文严谨复现了多项基准实验,并以极小的参数调整实现了显著性能提升,挑战了主流观点。领域主席特别指出,该发现可能对未来的AI研究范式产生重要影响,尤其在降低训练成本、推动轻量化部署和多模态统一接口设计方面具有广泛潜力。 从应用角度看,该方法可大幅减少下游任务的微调开销,使大型模型在移动设备或资源受限场景中快速适配。同时,它为构建跨模态共享嵌入空间提供了新思路,有助于实现视觉、语言等多模态任务的统一建模。长远来看,这一发现或将推动AI系统向更模块化、可迁移的方向演进。 该研究最初旨在探索大模型在游戏环境中的in-context planning能力,后因算力限制转向视觉推理任务。在探索对象中心表征与简化模型架构的过程中,团队提出“是否只需微调输入层就能激活模型的推理潜力”这一核心问题,并最终通过实验证实了其可行性。其中,博士生云天(现为布朗大学计算机科学博士生,师从孙晨与Ellie Pavlick教授)在多模态学习与模型可解释性方面发挥关键作用。他此前在Google Research、Meta等机构实习,研究方向涵盖视觉语言模型的对齐与高效训练。论文预计即将发布于arXiv并开源,值得持续关注。
