HyperAI超神经
Back to Headlines

研究揭示:语言模型用树状数学结构预测动态场景

4 days ago

研究人员发现,像ChatGPT这样的语言模型在处理任务时,采用了与人类不同的方法来追踪变化。这些模型通过巧妙的数学快捷方式,在每个连续步骤之间聚合信息,以预测最终的结果。MIT计算机科学和人工智能实验室(CSAIL)及电气工程与计算机科学系的研究团队,通过对模型内部机制的研究,揭示了两种主要算法:“关联算法”和“奇偶关联算法”。 关键人物与组织 该研究的主要作者是MIT博士生、CSAIL成员邹思明(Belinda Li SM '23)。她与其他CSAIL研究人员合作完成了这项工作。 事件的时间线与背景 2025年3月,研究团队在arXiv预印本服务器上发布了一篇论文,详细介绍了他们的发现。研究团队通过一系列实验,分析了语言模型在面对快速变化的环境时如何进行状态跟踪。 事件的起因、发展过程与结果 研究的起因是对语言模型在动态任务中的表现不佳的问题进行探究。研究人员设计了一个类似于经典记忆游戏的实验,要求模型根据给定的指令预测数字序列的最终排列。通过这个实验,研究人员观察到,语言模型并没有一步一步地按照指令执行,而是采用了一种层次化的策略,将信息聚合后进行预测。 主要事实与突破 关联算法:模型将相邻的步骤分组,并逐层计算最终结果,形成一个树形结构。 奇偶关联算法:首先判断最终排列是由偶数次还是奇数次重新排序产生的,然后分组计算。 研究人员使用“探测”和“激活修补”工具,分别监控模型的信息流动和处理变化的过程。 实验结果显示,关联算法比奇偶关联算法学习速度更快,且在处理更长的序列时表现更好。 转折点 研究的一个重要转折点是发现模型在早期训练中依赖启发式规则(heuristics),这有助于它们快速找到合理的解决方案,但也会导致在面对复杂任务时泛化能力下降。基于这一发现,研究人员建议在未来的设计中,可以尝试使用不同的预训练目标来控制模型的行为,避免其陷入不良习惯。 相关背景信息 语言模型如ChatGPT在完成代码块或预测用户接下来的输入时,需要不断更新对任务状态的理解。这种能力对于处理动态任务(如天气预报和金融市场的预测)至关重要。通过识别和改进模型的底层机制,可以显著提高其预测的准确性。 背景补充 哈佛大学博士后Keyon Vafa对这项研究给予了高度评价。他认为这不仅有助于理解语言模型的工作原理,还提供了改善模型的新策略。Vafa指出,许多大型语言模型的应用依赖于对状态的跟踪,例如提供食谱、编写代码、维持对话等。MIT CSAIL是一个世界领先的科研机构,专注于计算机科学和人工智能领域的创新研究。未来,研究团队计划进一步测试不同规模的未微调语言模型,评估其在现实世界动态任务中的表现。

Related Links