Command Palette
Search for a command to run...
Pas de plan global dans la chaîne de raisonnement : mettre au jour l’horizon planifié latent des LLM
Pas de plan global dans la chaîne de raisonnement : mettre au jour l’horizon planifié latent des LLM
Liyan Xu Mo Yu Fandong Meng Jie Zhou
Résumé
Ce travail s'inspire d'observations complémentaires antérieures sur la dynamique du Chain-of-Thought (CoT) : les grands modèles linguistiques (LLM) manifestent une planification implicite des raisonnements ultérieurs avant l'apparition du CoT, ce qui réduit la portée du CoT explicite ; toutefois, le CoT reste essentiel pour les tâches nécessitant un raisonnement en plusieurs étapes. Afin de mieux comprendre le lien entre les états internes des LLM et leurs trajectoires de raisonnement verbalisées, nous étudions la force de planification implicite des LLM à l'aide de notre méthode d'analyse, Tele-Lens, appliquée aux états cachés dans divers domaines de tâches. Nos résultats expérimentaux indiquent que les LLM présentent un horizon myope, se limitant à des transitions incrémentales sans planification globale précise. En exploitant cette caractéristique, nous formulons une hypothèse visant à améliorer l'estimation de l'incertitude du CoT, que nous validons en montrant qu’un petit sous-ensemble de positions dans le CoT peut efficacement représenter l’incertitude de l’ensemble du parcours. Nous soulignons également l’importance d’exploiter la dynamique du CoT, et démontrons qu’il est possible de détecter automatiquement les passages alternatifs (bypass) du CoT sans dégradation des performances. Notre code, les données et les modèles sont disponibles à l’adresse suivante : https://github.com/lxucs/tele-lens.