HyperAIHyperAI

Command Palette

Search for a command to run...

AutoThink : Améliore la Performance des Modèles de Langue Locaux de 43% grâce à un Raisonnement Adaptatif

AutoThink : Amélioration de 43 % des performances des modèles de langage locaux grâce à un raisonnement adaptatif J'ai développé AutoThink, une technique visant à optimiser les performances des modèles de langage locaux (LLMs) en adaptant l'allocation des ressources de calcul en fonction de la complexité des requêtes. Au lieu de consacrer le même temps de réflexion à chaque requête, AutoThink distingue les requêtes en deux catégories : HAUTE et BASSE complexité, puis alloue des tokens de "pensée" en conséquence. Pour les requêtes complexes, 70 à 90 % des tokens sont utilisés, tandis que pour les requêtes simples, cette proportion est réduite à 20 à 40 %. Cette méthode inclut également l'utilisation de vecteurs de direction inspirés de la recherche de tokens pivots (Pivotal Token Search), initialement introduite par Microsoft dans leur publication sur Phi-4. Ces vecteurs orientent les motifs de raisonnement du modèle pendant sa génération, favorisant des comportements précis, auto-correctifs et exploratoires. Les résultats obtenus avec AutoThink sur le modèle DeepSeek-R1-Distill-Qwen-1.5B sont impressionnants : Sur les tests GPQA-Diamond, la performance est passée de 21,72 % à 31,06 %, représentant une amélioration relative de 43 %. Pour les tests MMLU-Pro, une légère amélioration est observée, passant de 25,58 % à 26,38 %. AutoThink consomme moins de tokens que les approches de référence. L'une des forces d'AutoThink est sa compatibilité universelle. Cette technique peut être appliquée à divers modèles de raisonnement locale, tels que DeepSeek, Qwen, ainsi qu'à des modèles personnalisés finement ajustés. De plus, elle ne nécessite aucune dépendance API, ce qui facilite son intégration dans des environnements existants. La mise en œuvre d'AutoThink repose sur deux piliers principaux : Un cadre de classification adapté qui peut apprendre de nouvelles catégories de complexité sans avoir besoin d'être réentraîné. Une implémentation open source de la recherche de tokens pivots. Ces éléments combinés permettent une allocation plus efficace des ressources de calcul, optimisant ainsi les performances du modèle selon la nature de la requête. Pour ceux qui souhaitent en savoir plus, voici quelques ressources utiles : - Papier technique : https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5253327 - Code et exemples : https://github.com/codelion/optillm/tree/main/optillm/autothin... - Implémentation de la recherche de tokens pivots : https://github.com/codelion/pts Je suis impatient d'entendre vos avis sur cette approche d'allocation de ressources adaptative pour le raisonnement des IA. Avez-vous déjà testé des méthodes similaires avec vos propres modèles locaux ? Si oui, quels ont été vos résultats ?

Liens associés

AutoThink : Améliore la Performance des Modèles de Langue Locaux de 43% grâce à un Raisonnement Adaptatif | Articles tendance | HyperAI