HyperAI

未来的大语言模型可能不再“大”了。长期以来，AI研究者坚信，模型规模越大，智能水平越高——通过堆叠参数、训练海量数据，人类级的推理能力终将涌现。然而，现实却暴露出这一路径的深层缺陷：当前多数前沿模型存在严重欠训练、参数虚高，其所谓“推理”更像精巧的模仿，而非真正的思考。这些模型被强制用英语“自言自语”地逐步推导，生成大量冗余、低效的token，却难以真正深入问题本质。它们采用“越大越好”的范式，构建出参数动辄百亿、训练数据达万亿级别的系统，但本质上只是在海量样本中寻找相似模式，而非创造新解。更重要的是，它们缺乏灵活的思维节奏——面对难题无法主动延长思考时间，也无法像人类一样在无声中反复沉淀。为突破这一瓶颈，研究人员提出分层推理模型（Hierarchical Reasoning Models, HRMs）。该模型摒弃“思考即说话”的笨拙方式，转而在内部高维潜空间中静默、流畅地推理，更贴近人类直觉的深层思考过程。 HRM的核心是一个双速系统：由高层H模块制定策略，低层L模块执行具体计算。H模块设定方向后，L模块在固定步数内反复试错、回溯、探索，直至得出结果并反馈给H模块。H模块据此调整策略，进入下一轮迭代。整个过程形成嵌套循环，直至模型决定停止。关键创新在于自适应计算时间（ACT）机制：模型通过一个简单网络判断是否已足够自信，可终止推理。它采用强化学习策略，动态分配计算资源——简单问题快速结束，复杂任务则投入更多“思考时间”。实验表明，HRM在解决30×30迷宫和高难度数独任务时表现远超主流模型，甚至在无需任何预训练的情况下，仅用2700万参数和约千条数据即可达到顶尖水平。更惊人的是，在衡量抽象推理能力的ARC-AGI基准测试中，HRM以40.3%的准确率击败了参数庞大、算力充沛的o3-mini（34.5%）和Claude 3.7（21.2%）。更重要的是，HRM的性能随计算投入几乎线性提升，而传统Transformer模型则迅速陷入瓶颈。其ACT机制使模型在保持同等精度的前提下，平均计算步数仅为固定步数模型的1/4，实现真正的智能高效。这标志着AI发展范式正在转变：真正的智能不在于规模，而在于结构与效率的深度优化。未来的“大模型”或许不再大，但会更聪明、更省力、更接近人类的深层思维。

相关链接

相关链接

相关链接

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

Command Palette

下一个“大型”语言模型可能其实并不大

相关链接

Command Palette

下一个“大型”语言模型可能其实并不大

相关链接

Command Palette

下一个“大型”语言模型可能其实并不大

相关链接

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力