Au-delà des limites du contexte : Fils subconscients pour un raisonnement à long terme

Pour surmonter les limites de contexte des grands modèles de langage (LLMs) qui entravent la précision et l'efficacité du raisonnement, nous proposons le Thread Inference Model (TIM), une famille de LLMs entraînés pour résoudre des problèmes de manière récursive et décomposée, ainsi que TIMRUN, un environnement d'exécution permettant un raisonnement structuré à long terme au-delà des limites de contexte. Ensemble, le TIM hébergé sur TIMRUN permet d'avoir une mémoire de travail virtuellement illimitée et des appels d'outils multi-étapes au sein d'une seule inférence de modèle de langage, contournant ainsi les limites de sortie, les contraintes d'encodage positionnel et les goulets d'étranglement de la mémoire GPU. La performance est obtenue en modélisant le langage naturel sous forme d'arbres de raisonnement, mesurés à la fois par leur longueur et leur profondeur, plutôt que par des séquences linéaires. Les arbres de raisonnement comprennent des tâches avec des pensées, des sous-tâches récursives et des conclusions basées sur le concept que nous avons proposé dans Schroeder et al., 2025. Pendant la génération, nous maintenons une mémoire de travail qui conserve uniquement les états clé-valeur des tokens de contexte les plus pertinents, sélectionnés par un mécanisme de suppression des sous-tâches basé sur des règles, permettant ainsi de réutiliser les encodages positionnels et les pages de mémoire GPU tout au long du raisonnement. Les résultats expérimentaux montrent que notre système maintient un débit d'inférence élevé, même lorsqu'il manipule jusqu'à 90 % du cache KV en mémoire GPU. Il permet également d'obtenir un raisonnement précis sur des tâches mathématiques et de gérer des défis de récupération d'information nécessitant un raisonnement à long terme et l'utilisation d'outils multi-étapes.