HyperAIHyperAI

Command Palette

Search for a command to run...

Pas de plan global dans la chaîne de raisonnement : mettre au jour l’horizon planifié latent des LLM

Liyan Xu Mo Yu Fandong Meng Jie Zhou

Résumé

Ce travail s'inspire d'observations complémentaires antérieures sur la dynamique du Chain-of-Thought (CoT) : les grands modèles linguistiques (LLM) manifestent une planification implicite des raisonnements ultérieurs avant l'apparition du CoT, ce qui réduit la portée du CoT explicite ; toutefois, le CoT reste essentiel pour les tâches nécessitant un raisonnement en plusieurs étapes. Afin de mieux comprendre le lien entre les états internes des LLM et leurs trajectoires de raisonnement verbalisées, nous étudions la force de planification implicite des LLM à l'aide de notre méthode d'analyse, Tele-Lens, appliquée aux états cachés dans divers domaines de tâches. Nos résultats expérimentaux indiquent que les LLM présentent un horizon myope, se limitant à des transitions incrémentales sans planification globale précise. En exploitant cette caractéristique, nous formulons une hypothèse visant à améliorer l'estimation de l'incertitude du CoT, que nous validons en montrant qu’un petit sous-ensemble de positions dans le CoT peut efficacement représenter l’incertitude de l’ensemble du parcours. Nous soulignons également l’importance d’exploiter la dynamique du CoT, et démontrons qu’il est possible de détecter automatiquement les passages alternatifs (bypass) du CoT sans dégradation des performances. Notre code, les données et les modèles sont disponibles à l’adresse suivante : https://github.com/lxucs/tele-lens.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp