HyperAI

布朗大学的研究团队发现，仅通过微调输入嵌入层，即可显著提升大语言模型（LLM）在复杂推理任务中的表现，甚至在部分任务上实现近乎完美的推理能力。这一发现挑战了当前学界普遍认为LLM缺乏抽象推理能力的观点。尽管未经微调的预训练模型在类比、定量推理和视觉推理等任务中表现不佳，但研究团队通过复现Gendron等人（2024）的实验，进一步揭示：当仅对输入嵌入层进行微调（冻结Transformer主干结构）时，模型性能大幅提升，效果接近甚至超越全模型微调。这一现象不仅在文本推理任务中成立，在视觉推理任务中同样显著——只要对视觉编码器进行微调，冻结的预训练LLM即可高效完成跨模态推理。研究还表明，这种性能提升源于输入层对任务特定表征的有效适配，而非模型内部推理机制的根本改变。团队由此提出核心问题：所谓“抽象推理者”究竟意味着什么？这一概念的界定直接影响研究目标与实验设计。若目标是模拟人类思维，则应避免任何微调；若追求高效实用系统，则微调输入层正是优化路径。研究强调，当前争论的本质并非“LLM能否推理”，而是“为何要关心它能否推理”。该成果获得领域主席与审稿人高度评价，被认为严谨复现基准实验，并有力挑战主流认知。其意义在于揭示模型泛化能力的关键在于输入适配，而非模型架构本身，为未来研究提供了新范式。该发现具有多重实际价值：首先，大幅降低下游任务的训练成本，开发者无需全模型微调，仅调整输入层即可实现高性能；其次，推动轻量化部署，使大型模型可在移动端或边缘设备高效运行；再次，为构建统一多模态接口提供理论支持，促进视觉与语言嵌入空间的共享与对齐。长远来看，这一成果或将重塑对模型泛化与模块化设计的理解，推动AI系统向更灵活、可迁移的方向演进。研究最初旨在探索in-context planning在游戏环境中的应用，但因算力需求过高而转向视觉推理任务。在探索过程中，团队聚焦于对象中心表征（object-centric representation）的有效性，并采用类似LLaVA的架构，试图避免全模型微调。关键突破源于一个反直觉设想：若Transformer层本身具备推理能力，是否只需优化输入编码即可激活其潜力？实验验证了这一猜想，并在文本与视觉任务中均取得一致结果。团队成员Chen提出检验视觉编码器泛化性，虽获意外发现，但最终由Ellie提出转向输入嵌入微调，成为论文核心贡献。作者云天为布朗大学计算机科学博士生，师从孙晨与Ellie Pavlick教授，研究聚焦多模态学习与模型可解释性，硕士毕业于布朗大学，本科就读于维克森林大学双专业（计算机科学与统计学），现于Meta实习，正与Hengduo Li合作推进跨模态对齐新方法。相关论文即将发布于arXiv并开源，值得持续关注。

Verwandte Links

Verwandte Links

Verwandte Links

ByteDance Veröffentlicht Lance Als Open Source, Ein 3B-Modell, Das Verstehen, Generieren Und Bearbeiten Umfasst; Die National University of Singapore Schlägt Den ViMU-Datensatz Vor: Er Umfasst 588 Videos Und Nonverbale Fragebeantwortung.

ByteDance Veröffentlicht Lance Als Open Source, Ein 3B-Modell, Das Verstehen, Generieren Und Bearbeiten Umfasst; Die National University of Singapore Schlägt Den ViMU-Datensatz Vor: Er Umfasst 588 Videos Und Nonverbale Fragebeantwortung.

Command Palette

Browns Forschung: Kleine Eingabeanpassung reicht für nahezu perfekte Inferenz in LLMs

Verwandte Links

Command Palette

Browns Forschung: Kleine Eingabeanpassung reicht für nahezu perfekte Inferenz in LLMs

Verwandte Links

Command Palette

Browns Forschung: Kleine Eingabeanpassung reicht für nahezu perfekte Inferenz in LLMs

Verwandte Links

ByteDance Veröffentlicht Lance Als Open Source, Ein 3B-Modell, Das Verstehen, Generieren Und Bearbeiten Umfasst; Die National University of Singapore Schlägt Den ViMU-Datensatz Vor: Er Umfasst 588 Videos Und Nonverbale Fragebeantwortung.

ByteDance Veröffentlicht Lance Als Open Source, Ein 3B-Modell, Das Verstehen, Generieren Und Bearbeiten Umfasst; Die National University of Singapore Schlägt Den ViMU-Datensatz Vor: Er Umfasst 588 Videos Und Nonverbale Fragebeantwortung.