HyperAI超神经

布朗大学研究团队发现，仅通过微调大语言模型（LLM）的输入嵌入层，即可使其在多种复杂推理任务中实现近乎完美的表现，这一发现挑战了当前学界对LLM是否具备抽象推理能力的普遍认知。研究团队复现了Gendron等人（2024）的实验，确认未经微调的预训练模型在类比、定量和视觉推理等任务中表现不佳。然而，他们进一步发现，仅对输入嵌入层进行微调，而冻结Transformer主干结构，性能便显著提升，甚至在部分任务中达到接近100%的准确率，效果与全模型微调相当。更令人惊讶的是，该现象不仅限于文本任务。在视觉推理任务中，只要对视觉编码器进行微调，而保持LLM主干不变，模型同样能取得优异结果。这表明，LLM的推理能力具有极强的可迁移性，其性能瓶颈更多在于输入表征的适配，而非模型本身缺乏抽象推理能力。研究团队由此提出一个更深层问题：所谓“抽象推理者”究竟意味着什么？他们指出，研究动机决定了我们如何定义和验证这一能力。若目标是理解模型是否具备类人思维，应避免微调；若目标是推动技术进步，则微调输入层是高效路径。两种目标需用不同实验框架验证。该研究获得领域主席和审稿人高度评价，认为其“严谨复现并挑战主流观点”，“为未来研究提供重要启示”。其成果在多个方向具有应用潜力：降低下游任务训练成本，实现轻量化部署，支持个性化模型快速适配，以及推动多模态统一接口设计。未来或可使AI系统更模块化、可迁移。该研究最初旨在探索in-context planning在游戏任务中的应用，后因算力需求过高转至视觉推理。研究团队发现对象中心表征（object-centric representation）对推理任务极为有效，并采用类似LLaVA的架构，但不依赖全模型微调。在探索过程中，团队成员Chen提出验证视觉编码器泛化性，虽结果出人意料，但启发了Ellie提出“仅微调输入层”这一关键思路，最终推动论文成稿。论文作者云天为布朗大学计算机科学博士生，师从孙晨教授和Ellie Pavlick教授，研究方向为多模态学习与模型可解释性。其本科毕业于维克森林大学，主修计算机科学与统计学，硕士亦在布朗大学完成。目前，他正于Meta实习，与李恒多合作，致力于提升视觉语言模型的对齐效率与样本效率。相关论文即将发布于arXiv并开源。

相关链接

相关链接

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

Command Palette

仅微调输入嵌入，布朗大学新研究让大语言模型推理能力接近完美

相关链接

Command Palette

仅微调输入嵌入，布朗大学新研究让大语言模型推理能力接近完美

相关链接

Command Palette

仅微调输入嵌入，布朗大学新研究让大语言模型推理能力接近完美

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答