Command Palette
Search for a command to run...
Au-delà de la mémorisation : approfondir le raisonnement grâce à la récurrence, à la mémoire et à l'échelle du calcul au moment de l'évaluation

Résumé
Le raisonnement constitue une capacité fondamentale des grands modèles linguistiques, pourtant la compréhension de la manière dont ces modèles apprennent et réalisent un raisonnement en plusieurs étapes reste un problème ouvert. Dans cette étude, nous explorons l’impact des différentes architectures et des méthodes d’entraînement sur la capacité des modèles à raisonner de manière séquentielle, dans le cadre d’un automate cellulaire. En entraînant les modèles sur des séquences d’états générées à partir de fonctions booléennes aléatoires à partir de conditions initiales aléatoires — afin d’éliminer tout effet de mémorisation —, nous montrons que la plupart des architectures neuronales parviennent à extraire les règles sous-jacentes. Bien que les modèles atteignent une précision élevée dans la prédiction de l’état suivant, leur performance diminue fortement lorsqu’un raisonnement en plusieurs étapes est requis. Nous confirmons que l’augmentation de la profondeur du modèle joue un rôle crucial dans les calculs séquentiels. Nous démontrons qu’une extension de la profondeur effective du modèle, grâce à la récurrence, à la mémoire et à l’échelle du calcul au moment de l’évaluation (test-time compute), améliore de manière significative ses capacités de raisonnement.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.