HyperAI

Améliorer les capacités de raisonnement des grands modèles linguistiques (LLM), en particulier sous contrainte de paramètres, est essentiel pour les applications réelles. Les travaux antérieurs ont proposé des transformateurs récurrents, qui attribuent un nombre fixe d’itérations supplémentaires par token afin d’améliorer la qualité de génération. Après le premier passage avant standard, au lieu de produire directement le token verbalisé, les états cachés de la dernière couche sont réinjectés en tant qu’entrée pour des itérations supplémentaires, afin de raffiner les prédictions. Toutefois, nous identifions un phénomène latent d’« overthinking » (sur-réflexion) : certaines prédictions de tokens faciles, déjà correctes après le premier passage, sont parfois modifiées en erreurs lors des itérations supplémentaires. Pour remédier à cela, nous proposons Think-at-Hard (TaH), une méthode dynamique de réflexion latente qui itère profondément uniquement sur les tokens difficiles. Elle utilise un décideur neuronal léger pour déclencher des itérations latentes uniquement sur les tokens susceptibles d’être incorrects après le passage avant standard. Pendant ces itérations latentes, des modules Low-Rank Adaptation (LoRA) modifient l’objectif du LLM, passant de la prédiction générale du prochain token à une révision ciblée des tokens difficiles. Nous introduisons également un mécanisme d’attention duo-causale qui étend la portée de l’attention non seulement sur la dimension de la séquence de tokens, mais aussi sur une dimension supplémentaire correspondant à la profondeur des itérations. Cela permet un flux d’information entre itérations tout en préservant une parallélisation complète séquentielle. Les expériences montrent que TaH améliore significativement les performances de raisonnement des LLM sur cinq benchmarks exigeants, tout en maintenant le même nombre de paramètres. Par rapport aux méthodes de base qui itèrent deux fois pour tous les tokens de sortie, TaH obtient des gains de précision de 8,1 à 11,3 % tout en excluant 94 % des tokens de la deuxième itération. Face à des modèles Qwen3 à itération unique, fine-tunés avec les mêmes données, TaH réalise également des gains de 4,0 à 5,0 %. En permettant moins de 3 % de paramètres supplémentaires issus de LoRA et du décideur d’itération, ces gains s’élèvent respectivement à 8,5 à 12,6 % et 5,3 à 5,4 %. Notre code est disponible à l’adresse suivante : https://github.com/thu-nics/TaH.

Think-at-Hard : itérations latentes sélectives pour améliorer les modèles de langage rationnels

Tianyu Fu Yichen You Zekai Chen Guohao Dai Huazhong Yang Yu Wang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Think-at-Hard : itérations latentes sélectives pour améliorer les modèles de langage rationnels

Tianyu Fu Yichen You Zekai Chen Guohao Dai Huazhong Yang Yu Wang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters