Command Palette
Search for a command to run...
CoT-Space : un cadre théorique pour la pensée lente interne par apprentissage par renforcement
Zeyu Gan Hao Yi Yong Liu

Résumé
L'apprentissage par renforcement (RL) est devenu une approche fondamentale pour améliorer les capacités de raisonnement des grands modèles linguistiques (LLM). Toutefois, un écart théorique important persiste : les cadres classiques de RL basés sur les tokens échouent à s'aligner sur la nature de raisonnement de processus complexes à plusieurs étapes, tels que le Chain-of-Thought (CoT). Pour relever ce défi, nous introduisons CoT-Space, un cadre théorique novateur qui reconsidère le raisonnement des LLM non plus comme une tâche discrète de prédiction de tokens, mais comme un processus d'optimisation au sein d'un espace sémantique continu, au niveau du raisonnement. En analysant ce processus à la fois sous l'angle du bruit et sous celui du risque, nous démontrons que la convergence vers une longueur optimale de CoT est une conséquence naturelle du compromis fondamental entre sous-apprentissage et surapprentissage. De plus, des expérimentations étendues fournissent une validation empirique solide de nos résultats théoriques. Notre cadre ne fournit pas seulement une explication cohérente de phénomènes empiriques tels que le sur-raisonnement, mais établit également une base théorique solide pour guider le développement futur d'agents de raisonnement plus efficaces et généralisables.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.