HyperAI超神经
Back to Headlines

思维树技术让大型语言模型学会深度逻辑推理

a day ago

Tree of Thought(ToT)提示:教大型语言模型慢慢思考 心理学家丹尼尔·卡内曼在《思考,快与慢》一书中提出人类有两种思考模式:系统1和系统2。系统1快速、自信而几乎无意识;系统2缓慢、费力但更合逻辑和有意识。近年来,研究人员开发了方法,希望通过改进的提示策略将系统2式的思考方式带入大型语言模型(LLMs)中,如ChatGPT等。其中一个最引人注目的技术就是Tree of Thought(ToT)提示。 ToT提示建立在Chain of Thought(CoT)基础上,后者引导LLMs进行逐步推理。相比之下,ToT更加复杂,它组织推理由多个潜在步骤分支构成,形成一个树状结构。每个节点都是一个“想法”,并且有分支代表可能的路径。模型会通过搜索算法(如广度优先搜索和深度优先搜索)来评估每一步,从而选择最佳路径。 以扫雷游戏为例,这是一个经典的小游戏,目标是在不触发地雷的情况下打开所有安全的格子,每个格子的数字表示相邻地雷的数量。研究者应用ToT提示,使LLM能够更有效地解决这个游戏中的难题。 具体实现过程如下: 生成游戏板:使用Python代码生成一个包含地雷的游戏板,并计算每个格子旁边的地雷数量。 ToT提示生成器:定义了一个函数llm_generate_thoughts,该函数通过向LLM发送一个详细的提示来生成下一步可行的选择及其安全性评分。提示包括当前游戏板的状态、已知的信息以及具体的推理规则。 ToT代理决策:代理根据上述生成的多个“想法”进行决策。首先调用llm_generate_thoughts函数建议几种可能的下一个点击动作及其评分。如果LLM未能返回任何建议,代理将回退到基本的随机代理。如果得到了有效的建议,代理会按评分排序并选择得分高于0.9的最优动作。 在一个标准的8×8扫雷游戏中,隐藏的地雷数目为10个,研究者进行了10次实验,所有实验的准确性达到了100%。这表明ToT能够显著提升LLMs的逻辑推理能力,使其从简单的聊天助手变身为复杂的逻辑问题解决者。 业内评价: ToT技术的引入标志着大型语言模型在处理复杂任务上的重要进展。与传统的线性推理不同,ToT通过构建树状结构来模拟人类的多路径探索和评估过程,使模型的决策更加合理和高效。这一技术的应用不仅限于扫雷游戏,还可以广泛应用于其他需要逻辑推理和决策优化的领域,如医疗诊断、金融分析和机器人规划。随着技术的不断发展,ToT有望进一步推动LLMs的应用场景拓展和性能提升。例如,OpenAI的GPT-4等高级LLM可以利用这些技术解决更为复杂的问题,提升用户体验。 背景信息: ToT提示技术主要是由学术界和人工智能公司共同研究的,目的是让LLMs具备更强的逻辑推理和复杂问题解决能力。OpenAI是一家在LLM领域处于领先地位的公司,其最新推出的GPT-4等模型已经展示了在多种任务中的卓越表现。ToT技术的加入将进一步巩固这些公司在高阶应用场景中的优势。

Related Links