HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

SIM-CoT : Chaîne de raisonnement implicite supervisée

Xilin Wei Xiaoran Liu Yuhang Zang Xiaoyi Dong Yuhang Cao Jiaqi Wang Xipeng Qiu Dahua Lin

SIM-CoT : Chaîne de raisonnement implicite supervisée

Résumé

Les méthodes de chaîne de raisonnement implicite (CoT) offrent une alternative prometteuse et efficace en termes de tokens par rapport au raisonnement explicite dans les grands modèles linguistiques (LLM), mais un écart de performance persistant limite leur application. En augmentant le budget computationnel des approches CoT implicites, nous identifions un problème fondamental d’instabilité latente : alors que l’augmentation du nombre de tokens de raisonnement implicite vise à améliorer les performances, le processus d’entraînement devient souvent instable et se désagrège. Notre analyse révèle que cette instabilité provient de la homogénéisation des représentations latentes, entraînant une perte de diversité sémantique — un échec dû à une supervision insuffisante au niveau des étapes dans les approches CoT implicites existantes. Pour remédier à ce problème, nous proposons SIM-CoT, un module d’entraînement plug-and-play qui introduit une supervision au niveau des étapes afin de stabiliser et enrichir l’espace de raisonnement latent. Plus précisément, SIM-CoT utilise un décodeur auxiliaire durant l’entraînement pour aligner chaque token implicite avec son étape correspondante de raisonnement explicite, garantissant que les états latents captent des informations distinctes et significatives. Ce décodeur auxiliaire est supprimé lors de l’inférence, préservant ainsi l’efficacité computationnelle des méthodes CoT implicites sans surcharge. En outre, ce décodeur auxiliaire permet une interprétabilité du raisonnement implicite en projetant chaque token latent sur un vocabulaire de raisonnement explicite, permettant ainsi une visualisation pas à pas des rôles sémantiques et un diagnostic précis. SIM-CoT améliore de manière significative à la fois la précision sur domaine (in-domain) et la stabilité hors domaine (out-of-domain) de diverses méthodes CoT implicites, augmentant les performances de bases telles que Coconut de +8,2 % sur GPT-2 et de CODI de +3,0 % sur LLaMA-3.1 8B. Démontrant une forte capacité d’évolutivité, SIM-CoT dépasse également la borne explicite CoT sur GPT-2 de 2,1 % tout en offrant une efficacité en tokens 2,3 fois supérieure, tout en réduisant considérablement l’écart de performance sur des modèles plus grands comme LLaMA-3.1 8B.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SIM-CoT : Chaîne de raisonnement implicite supervisée | Articles de recherche | HyperAI