Command Palette

Search for a command to run...

2 个月前

超越记忆:通过循环、记忆与测试时计算扩展实现推理深度延伸

超越记忆:通过循环、记忆与测试时计算扩展实现推理深度延伸

摘要

推理是大型语言模型的核心能力之一,然而,我们对这些模型如何学习以及执行多步推理的过程仍缺乏深入理解。在本研究中,我们探讨了不同模型架构与训练方法在细胞自动机框架下对模型多步推理能力的影响。通过在随机初始条件下,利用随机布尔函数生成的状态序列进行训练,从而排除记忆效应的干扰,我们发现,大多数神经网络架构能够学会抽象出底层的运行规则。尽管模型在单步状态预测任务中表现优异,准确率较高,但一旦涉及多步推理,其性能便急剧下降。我们证实,增加模型深度对于序列计算至关重要。此外,我们还证明,通过引入循环结构、记忆机制以及测试时计算资源的扩展,可显著提升模型的有效深度,从而大幅增强其推理能力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供