8 days ago
超越上下文限制:用于长时程推理的潜意识线索
Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass

摘要
为突破大型语言模型(LLMs)在上下文长度方面的限制,这些限制制约了推理的准确性与效率,我们提出了线程推理模型(Thread Inference Model,TIM),这是一个专门用于递归和分解式问题求解的LLM系列。同时,我们还提出了TIMRUN,这是一个推理运行时环境,能够在超出上下文限制的情况下实现长视野的结构化推理。TIM在TIMRUN上运行,支持几乎无限的工作内存,并在单次语言模型推理过程中实现多跳工具调用,从而克服输出长度限制、位置嵌入约束以及GPU内存瓶颈。性能的实现方式是将自然语言建模为推理树,其衡量标准包括长度和深度,而非线性序列。这些推理树由任务、思考过程、递归子任务以及基于Schroeder等人在2025年提出的概念得出的结论组成。在生成过程中,我们维护一个工作内存,仅保留最相关上下文标记的关键值(key-value)状态,这些状态通过基于规则的子任务剪枝机制进行选择,从而在整个推理过程中实现位置嵌入和GPU内存页的重复利用。实验结果表明,我们的系统即使在操作高达90%的KV缓存时,仍能保持较高的推理吞吐量。它还在数学任务推理中表现出较高的准确性,并能够处理需要长视野推理和多跳工具调用的信息检索挑战。