HyperAI
Back to Headlines

AbstRaL : Nouvelle Méthode de Renforcement pour Améliorer la Raisonnement Abstrait des LLMs sur les Benchmarks GSM

il y a 3 jours

AbstRaL : Enseigner l'Abstract Reasoning aux LLMs via le Renforcement pour Améliorer leur Robustesse sur les BENCHMARKS GSM Les Défis de l'Abstract Reasoning dans les LLMs Les grands modèles de langage (LLMs) ont montré des capacités impressionnantes en matière de raisonnement, mais ils font souvent défaut lorsqu'ils sont confrontés à des changements dans la distribution des données, comme des modifications de la formulation, des valeurs numériques ou l'introduction d'informations parasites. Cette faiblesse, connue sous le nom de mauvaise généralisation hors distribution (out-of-distribution, OOD), entraîne une baisse notable de la précision, même dans des tâches mathématiques simples. Les solutions précédentes, telles que l'augmentation de données, ont contribué à améliorer la robustesse des modèles, mais augmentent également les exigences computationnelles. Des techniques comme l'abstraction-de-pensée et la chaîne-d'abstraction ont été explorées pour enseigner le raisonnement abstrait, tandis que des méthodes de planification comme la chaîne-de-pensée et l'arbre-de-pensée aident à la résolution step-by-step des problèmes. Le renforcement de ces compétences en dehors de la mémorisation de schémas est essentiel pour développer des systèmes d'IA plus généraux et fiables. Introduction de AbstRaL Des chercheurs d’Apple et de l’EPFL ont proposé AbstRaL, une méthode visant à enseigner aux LLMs les motifs de raisonnement abstrait plutôt que de se concentrer sur les détails de surface. Au lieu de générer une multitude d'exemples de formation variés, qui est coûteux en termes de calcul, AbstRaL aide les modèles à comprendre la structure sous-jacente des problèmes de raisonnement en utilisant l’apprentissage par renforcement. Ce processus lie les motifs abstraits à des outils symboliques, favorisant une résolution de problèmes plus fiable. Testée sur des benchmarks GSM, AbstRaL améliore significativement la performance des LLMs, en particulier face à des changements d'entrée ou des informations distrayantes. Elle surpasse les modèles formés uniquement avec des méthodes de supervised learning en promouvant un raisonnement plus cohérent et indépendant du contexte. Les Quatre Étapes de la Méthode AbstRaL AbstRaL repose sur un cadre en quatre étapes conçu pour enseigner aux LLMs le raisonnement abstrait plutôt que de dépendre de schémas de surface : Identification et Remplacement des Variables Clés : La première étape consiste à identifier les variables importantes dans une question et à les remplacer par des placeholders symboliques. Apprentissage Step-By-Step avec des Symboles Abstraits : Utilisant des données spécialement créées (GranulAR), le modèle apprend à raisonner étape par étape avec ces symboles abstraits. Retrait de la Structure de Raisonnement Générale : La troisième étape implique d'extraire la structure de raisonnement générale (l'abstraction) à partir de la réponse symbolique. Application de l'Abstraction à des Valeurs Originales : Enfin, cette abstraction est utilisée avec les valeurs originales pour obtenir la bonne réponse. Le modèle est entraîné avec deux récompenses dans le cadre de l'apprentissage par renforcement : une pour la justesse de la réponse et une autre pour la similarité symbolique. Cette approche renforce encore davantage la capacité du modèle à générer des motifs de raisonnement précis et indépendants du contexte. Évaluations des Performances d'AbstRaL Les chercheurs ont évalué AbstRaL sur des tâches de raisonnement mathématique en utilisant des modèles tels que Llama-3 et Qwen2, formés sur un dataset appelé GranulAR qui reformule les problèmes mathématiques en forme symbolique abstraite. Cette méthode permet aux modèles de se concentrer sur la structure plutôt que sur les détails de surface. Ils ont testé la robustesse en utilisant des versions modifiées de problèmes GSM8K, en changeant les chiffres, les noms et la formulation. Comparées à des méthodes de référence comme la prompte chaîne-de-pensée standard, AbstRaL a montré une cohérence plus forte et une diminution moins significative de la précision sur ces variations. Surtout pour les modèles plus petits, AbstRaL améliore considérablement la fiabilité face à des entrées reformulées. Ces résultats suggèrent que l'enseignement du raisonnement abstrait rend les modèles plus adaptables et moins dépendants de schémas mémorisés. Conclusion et Impact En somme, AbstRaL est une méthode innovante conçue pour améliorer le raisonnement abstrait des LLMs, renforçant ainsi leur résilience face aux modifications superficielles des problèmes. Contrairement au fine-tuning traditionnel ou à l'augmentation des données, AbstRaL utilise l'apprentissage par renforcement pour former les modèles sur les rationnels GranulAR, qui combinent la chaîne-de-pensée socratique avec des abstractions détaillées. Cette approche aide les modèles à se débarrasser des distractions de surface et à mieux interagir avec des outils symboliques. Testé sur des benchmarks GSM8K difficiles, AbstRaL réduit notablement les baisses de performance sous des changements de distribution, en particulier pour les modèles plus petits. L'étude montre que l'apprentissage de l'abstraction améliore l'robustesse du raisonnement plus efficacement que le recours exclusif à une supervision directe. Évaluation de l'Industrie L'industrie de l'IA accueille favorablement AbstRaL, voyant en elle un pas significatif vers la création de modèles de langage plus intelligents et plus adaptatifs. Apple, reconnue pour son leadership en matière d'innovation technologique, renforce sa position en collaborant avec des institutions académiques de pointe comme EPFL. Cette initiative souligne l'importance croissante de l'abstract reasoning dans le développement de systèmes d'IA plus avancés et fiables. La méthodologie proposée dans AbstRaL représente une avancée importante, car elle offre une alternative efficiente aux approches traditionnelles qui nécessitent des ressources computationnelles considérables. Grâce à l'apprentissage par renforcement, AbstRaL non seulement améliore la performance des modèles, mais aussi leur capacité à généraliser hors de leur distribution initiale. Cette robustesse accrue est cruciale pour des applications réelles où l'adaptabilité aux variations inattendues est primordiale. Pour en savoir plus sur cette recherche, consultez le [Papier]. Tous les crédits reviennent aux chercheurs de ce projet. Suivez-nous sur Twitter, YouTube et Spotify, et n'oubliez pas de rejoindre notre subreddit ML avec plus de 100 000 membres et de vous abonner à notre newsletter.

Related Links