Außerhalb der Kontextgrenzen: Unbewusste Fäden für die langfristige Reasoning

Um die Kontextgrenzen großer Sprachmodelle (LLMs) zu überwinden, die die Genauigkeit und Effizienz des Schlussfolgerns behindern, schlagen wir das Thread Inference Model (TIM) vor, eine Familie von LLMs, die für rekursive und dekompositionale Problemlösung trainiert wurden, sowie TIMRUN, eine Inferenz-Runtime, die eine langfristige strukturierte Schlussfolgerung über die Kontextgrenzen hinaus ermöglicht. Zusammen ermöglicht TIM auf TIMRUN eine nahezu unbegrenzte Arbeitsmemory und Multi-Hop-Toolaufrufe innerhalb einer einzigen Sprachmodell-Inferenz, wodurch Ausgabelimitierungen, Positionsembedding-Beschränkungen und GPU-Memory-Bottlenecks überwunden werden. Die Leistung wird dadurch erzielt, dass natürliche Sprache als Schlussfolgungsbaum dargestellt wird, der anhand von Länge und Tiefe gemessen wird, anstatt als lineare Sequenz. Die Schlussfolgungsbaum bestehen aus Aufgaben mit Gedanken, rekursiven Unteraufgaben und Schlussfolgerungen, basierend auf dem Konzept, das wir in Schroeder et al., 2025 vorgestellt haben. Während der Generierung halten wir eine Arbeitsmemory aufrecht, die nur die Key-Value-Zustände der relevantesten Kontext-Token speichert, die durch ein regelbasiertes Unteraufgaben-Pruning-Mechanismus ausgewählt werden. Dies ermöglicht die Wiederverwendung von Positionsembeddings und GPU-Memory-Seiten während des gesamten Schlussfolgerungsprozesses. Experimentelle Ergebnisse zeigen, dass unser System eine hohe Inferenz-Durchsatzkapazität aufrechterhält, selbst wenn bis zu 90 % des KV-Caches im GPU-Speicher manipuliert werden. Es liefert zudem präzises Schlussfolgern bei mathematischen Aufgaben und bewältigt Informationsretrieval-Herausforderungen, die eine langfristige Schlussfolgerung und mehrfache Toolaufrufe erfordern.