仅微调输入嵌入,布朗大学新研究让大语言模型推理能力接近完美
布朗大学研究团队发现,仅通过微调大语言模型(LLM)的输入嵌入层,即可使其在多种复杂推理任务中实现近乎完美的表现,这一发现挑战了当前学界对LLM是否具备抽象推理能力的普遍认知。研究团队复现了Gendron等人(2024)的实验,确认未经微调的预训练模型在类比、定量和视觉推理等任务中表现不佳。然而,他们进一步发现,仅对输入嵌入层进行微调,而冻结Transformer主干结构,性能便显著提升,甚至在部分任务中达到接近100%的准确率,效果与全模型微调相当。 更令人惊讶的是,该现象不仅限于文本任务。在视觉推理任务中,只要对视觉编码器进行微调,而保持LLM主干不变,模型同样能取得优异结果。这表明,LLM的推理能力具有极强的可迁移性,其性能瓶颈更多在于输入表征的适配,而非模型本身缺乏抽象推理能力。 研究团队由此提出一个更深层问题:所谓“抽象推理者”究竟意味着什么?他们指出,研究动机决定了我们如何定义和验证这一能力。若目标是理解模型是否具备类人思维,应避免微调;若目标是推动技术进步,则微调输入层是高效路径。两种目标需用不同实验框架验证。 该研究获得领域主席和审稿人高度评价,认为其“严谨复现并挑战主流观点”,“为未来研究提供重要启示”。其成果在多个方向具有应用潜力:降低下游任务训练成本,实现轻量化部署,支持个性化模型快速适配,以及推动多模态统一接口设计。未来或可使AI系统更模块化、可迁移。 该研究最初旨在探索in-context planning在游戏任务中的应用,后因算力需求过高转至视觉推理。研究团队发现对象中心表征(object-centric representation)对推理任务极为有效,并采用类似LLaVA的架构,但不依赖全模型微调。在探索过程中,团队成员Chen提出验证视觉编码器泛化性,虽结果出人意料,但启发了Ellie提出“仅微调输入层”这一关键思路,最终推动论文成稿。 论文作者云天为布朗大学计算机科学博士生,师从孙晨教授和Ellie Pavlick教授,研究方向为多模态学习与模型可解释性。其本科毕业于维克森林大学,主修计算机科学与统计学,硕士亦在布朗大学完成。目前,他正于Meta实习,与李恒多合作,致力于提升视觉语言模型的对齐效率与样本效率。相关论文即将发布于arXiv并开源。
