HyperAIHyperAI

Command Palette

Search for a command to run...

Au-delà des limites du contexte : Fils subconscients pour un raisonnement à long terme

Hongyin Luo Nathaniel Morgan Tina Li Derek Zhao Ai Vy Ngo Philip Schroeder Lijie Yang Assaf Ben-Kish Jack OBrien James Glass

Résumé

Pour surmonter les limites de contexte des grands modèles de langage (LLMs) qui entravent la précision et l'efficacité du raisonnement, nous proposons le Thread Inference Model (TIM), une famille de LLMs entraînés pour résoudre des problèmes de manière récursive et décomposée, ainsi que TIMRUN, un environnement d'exécution permettant un raisonnement structuré à long terme au-delà des limites de contexte. Ensemble, le TIM hébergé sur TIMRUN permet d'avoir une mémoire de travail virtuellement illimitée et des appels d'outils multi-étapes au sein d'une seule inférence de modèle de langage, contournant ainsi les limites de sortie, les contraintes d'encodage positionnel et les goulets d'étranglement de la mémoire GPU. La performance est obtenue en modélisant le langage naturel sous forme d'arbres de raisonnement, mesurés à la fois par leur longueur et leur profondeur, plutôt que par des séquences linéaires. Les arbres de raisonnement comprennent des tâches avec des pensées, des sous-tâches récursives et des conclusions basées sur le concept que nous avons proposé dans Schroeder et al., 2025. Pendant la génération, nous maintenons une mémoire de travail qui conserve uniquement les états clé-valeur des tokens de contexte les plus pertinents, sélectionnés par un mécanisme de suppression des sous-tâches basé sur des règles, permettant ainsi de réutiliser les encodages positionnels et les pages de mémoire GPU tout au long du raisonnement. Les résultats expérimentaux montrent que notre système maintient un débit d'inférence élevé, même lorsqu'il manipule jusqu'à 90 % du cache KV en mémoire GPU. Il permet également d'obtenir un raisonnement précis sur des tâches mathématiques et de gérer des défis de récupération d'information nécessitant un raisonnement à long terme et l'utilisation d'outils multi-étapes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Au-delà des limites du contexte : Fils subconscients pour un raisonnement à long terme | Articles | HyperAI