Développement d’un Cadre pour Séparer la Connaissance de la Logique dans le Raisonnement des LLMs : Vers des Modèles Plus Interprétables et Fiables
Comment les LLMs raisonnent-ils vraiment ? Une framework pour séparer la logique de la connaissance Les derniers progrès dans les grands modèles linguistiques (LLMs) spécialisés dans le raisonnement, comme ceux d'OpenAI (o1/3) et DeepSeek-R1, ont permis des améliorations notables dans des tâches complexes. Cependant, le processus de raisonnement étape par étape de ces modèles reste obscur. La plupart des évaluations se concentrent sur la précision des réponses finales, ce qui masque le raisonnement intermédiaire et ne révèle pas comment ces modèles combinent connaissance et logique. Des domaines comme les mathématiques et la médecine ont des besoins de raisonnement différents, soulignant l'importance de développer des méthodes d'évaluation mieux adaptées pour construire une IA de confiance. Les limites des évaluations basées sur les réponses finales en mathématiques et en médecine Les LLMs récents ont réalisé des avancées impressionnantes dans les tâches de raisonnement, notamment en mathématiques et en médecine, grâce à de meilleures données d'entraînement et des stratégies de récompense. Malheureusement, la plupart de cette progression vise à améliorer la précision des réponses finales, sans explorer en profondeur le raisonnement qui y conduit. Des travaux antérieurs ont tenté de mesurer le raisonnement en comparant les réponses aux questions originales, mais cette méthode est imparfaite car les modèles s'appuient souvent sur des déductions antérieures ou des connaissances internes. Cette approche peut masquer des erreurs factuelles ou des faiblesses logiques. Un nouveau cadre pour séparer la connaissance et la logique dans le raisonnement des LLMs Des chercheurs de l’UC Santa Cruz, de Stanford et de l’Université Tongji ont développé une approche novatrice qui dépasse l'évaluation des réponses finales en séparant le raisonnement des LLMs en deux éléments clés : la connaissance factuelle et les étapes logiques. Ils introduisent un cadre détaillé utilisant deux métriques : l'Index de Connaissance (KI) pour la précision factuelle et le Gain d'Information (InfoGain) pour la qualité du raisonnement. L’analyse des modèles Qwen sur des tâches mathématiques et médicales montre que les compétences en raisonnement ne se transfèrent pas facilement entre les domaines. Bien que la fine-tuning supervisée améliore la précision, elle tend à affaiblir la profondeur du raisonnement. La apprentissage par renforcement, quant à lui, affine le raisonnement en supprimant les informations non pertinentes. Ce travail souligne l'importance d'une évaluation et d'une formation plus réfléchies des LLMs. Évaluation du raisonnement avec les modèles Qwen2.5-7B et DeepSeek-R1 Les chercheurs ont évalué le raisonnement des LLMs en analysant les modèles Qwen2.5-7B et sa version distillée DeepSeek-R1, formés à l'aide de fine-tuning supervisée (SFT) et d'apprentissage par renforcement (RL). Utilisant des tâches issues des domaines mathématiques et médicaux, ils ont décomposé les réponses en étapes logiques et les ont évaluées en fonction de deux métriques : le Gain d'Information (qui mesure la réduction de l'incertitude à chaque étape de raisonnement) et l'Index de Connaissance (qui vérifie la précision factuelle de chaque étape en référence à des sources expertes). Alors que le Gain d'Information suit la pertinence informatique de chaque étape, l'Index de Connaissance s'assure que la connaissance correspond aux faits du monde réel. Cette méthode permet de comprendre comment les modèles raisonnent et où peuvent survenir des erreurs dans la précision ou la logique. Fine-tuning supervisée vs. Apprentissage par renforcement dans des tâches spécifiques au domaine L'étude compare deux variantes du modèle Qwen-2.5-7B : Qwen-Base et la version distillée Qwen-R1, formées avec SFT et RL pour des tâches médicales. Les résultats montrent que Qwen-Base surpasse constamment Qwen-R1 en termes de précision, de conservation des connaissances et de raisonnement, particulièrement après des sessions de fine-tuning supervisée et d'apprentissage par renforcement. Le modèle distillé semble souffrir d’un décalage de domaine dues à son entraînement initial axé sur les mathématiques et le code. Paradoxalement, la fine-tuning supervisée améliore plus efficacement les connaissances médicales que l'apprentissage par renforcement, quoique celui-ci puisse légèrement compromettre l'efficacité du raisonnement. L'apprentissage par renforcement, après une fine-tuning supervisée, permet d'améliorer le raisonnement en éliminant les informations incorrectes. Les benchmarks médicales reposent davantage sur des connaissances factuelles que sur un raisonnement abstrait, contrairement aux tâches axées sur les mathématiques. Conclusion : Vers des LLMs plus interprétables et fiables En conclusion, cette étude propose un cadre qui permet de distinguer la connaissance et le raisonnement pour évaluer le fonctionnement des LLMs, notamment dans des domaines sensibles tels que la médecine et les mathématiques. En utilisant des modèles Qwen formés avec des techniques de fine-tuning supervisée et d'apprentissage par renforcement, les chercheurs ont découvert que, bien que la fine-tuning supervisée améliore la précision factuelle, essentielle en médecine, elle peut affaiblir le raisonnement. L'apprentissage par renforcement, en revanche, affine le raisonnement en éliminant les erreurs. Ce cadre pourrait être étendu à d'autres secteurs nécessitant une pensée structurée, tels que le droit ou la finance. Cette approche permet une meilleure compréhension des décisions prises par les LLMs et suggère des moyens de les former de manière ciblée pour des domaines spécifiques. Évaluation de l’événement par des professionnels de l’industrie Les professionnels de l'industrie saluent l’introduction de ce cadre et soulignent son importance pour la transparence et la fiabilité des modèles de langues. Ils reconnaissent que la capacité de distinguer la connaissance de la logique offrira des insights précieux pour améliorer les performances des LLMs dans des secteurs réglementés comme la santé et la loi. Des entreprises technologiques majeures, tels que Google et Microsoft, ont déjà montré de l'intérêt pour ce type d’évaluation afin d’intégrer ces méthodes dans leurs futurs modèles d'IA. En somme, ce travail représente une étape Cruciale vers des LLMs plus interprétables et plus fiables, répondant ainsi aux attentes croissantes de l'industrie en matière de transparence et de précision.