清华学子优化Transformer模型,2700万参数挑战行业巨头
3 days ago
近日,两名清华大学的学生成功研发了一种新的神经网络模型HRM(Hierarchical Recursive Memory),在仅2700万个参数的情况下,性能超越了OpenAI的o3(可能指的是O3模型)和Anthropic的Claude,引起了业内外的广泛关注。这一成果不仅打破了传统Transformer模型在计算资源上的限制,还展现了更高效的计算能力和实际应用中的灵活性。 首先,HRM具有出色的图灵完备性。与传统的早期神经网络推理算法相似,HRM能够在有限的内存和时间限制下执行通用计算。这使得HRM能够模拟任何图灵机的模型类型,从而克服了标准Transformer模型在计算局限性上的挑战。标准Transformer模型通常依赖循环神经网络结构来进行训练,容易遭受早期收敛问题,并且依赖内存储存型的随时间反向传播算法,这限制了其有效计算深度。 HRM通过两种创新手段解决了这些问题:一是采用了密集的梯度监控信号来防止反向传播中常见的信号衰减;二是设计了自适应计算能力,能够根据推理与决策的复杂度差异动态分配计算资源,避免对每个token进行同等处理,从而提高了模型在连续空间中的自然运行效率。这种机制不仅更加符合生物的计算方式,还能显著减少训练过程中的大量探索和精密切割设计需求。 业内人士对其给予了高度评价,认为HRM模型的出现不仅代表了中国年轻科研人员在人工智能领域的崭露头角,也预示着未来 Transformer架构可能迎来的一场大变革。目前,清华大学在人工智能研究领域处于国际领先地位,此次成果进一步巩固了其优势地位。
Related Links
MIT Technology Review