下一个“大型”语言模型可能其实并不大
未来的大语言模型可能不再“大”了。长期以来,AI研究者坚信,模型规模越大,智能水平越高——通过堆叠参数、训练海量数据,人类级的推理能力终将涌现。然而,现实却暴露出这一路径的深层缺陷:当前多数前沿模型存在严重欠训练、参数虚高,其所谓“推理”更像精巧的模仿,而非真正的思考。 这些模型被强制用英语“自言自语”地逐步推导,生成大量冗余、低效的token,却难以真正深入问题本质。它们采用“越大越好”的范式,构建出参数动辄百亿、训练数据达万亿级别的系统,但本质上只是在海量样本中寻找相似模式,而非创造新解。更重要的是,它们缺乏灵活的思维节奏——面对难题无法主动延长思考时间,也无法像人类一样在无声中反复沉淀。 为突破这一瓶颈,研究人员提出分层推理模型(Hierarchical Reasoning Models, HRMs)。该模型摒弃“思考即说话”的笨拙方式,转而在内部高维潜空间中静默、流畅地推理,更贴近人类直觉的深层思考过程。 HRM的核心是一个双速系统:由高层H模块制定策略,低层L模块执行具体计算。H模块设定方向后,L模块在固定步数内反复试错、回溯、探索,直至得出结果并反馈给H模块。H模块据此调整策略,进入下一轮迭代。整个过程形成嵌套循环,直至模型决定停止。 关键创新在于自适应计算时间(ACT)机制:模型通过一个简单网络判断是否已足够自信,可终止推理。它采用强化学习策略,动态分配计算资源——简单问题快速结束,复杂任务则投入更多“思考时间”。 实验表明,HRM在解决30×30迷宫和高难度数独任务时表现远超主流模型,甚至在无需任何预训练的情况下,仅用2700万参数和约千条数据即可达到顶尖水平。更惊人的是,在衡量抽象推理能力的ARC-AGI基准测试中,HRM以40.3%的准确率击败了参数庞大、算力充沛的o3-mini(34.5%)和Claude 3.7(21.2%)。 更重要的是,HRM的性能随计算投入几乎线性提升,而传统Transformer模型则迅速陷入瓶颈。其ACT机制使模型在保持同等精度的前提下,平均计算步数仅为固定步数模型的1/4,实现真正的智能高效。 这标志着AI发展范式正在转变:真正的智能不在于规模,而在于结构与效率的深度优化。未来的“大模型”或许不再大,但会更聪明、更省力、更接近人类的深层思维。
