il y a 2 mois

Au-delà de la mémorisation : approfondir le raisonnement grâce à la récurrence, à la mémoire et à l'échelle du calcul au moment de l'évaluation

Voir les détails de l'article Voir le code

Ivan Rodkin Daniil Orel Konstantin Smirnov Arman Bolatov Bilal Elbouardi Besher Hassan Yuri Kuratov Aydar Bulatov Preslav Nakov Timothy Baldwin

Au-delà de la mémorisation : approfondir le raisonnement grâce à la récurrence, à la mémoire et à l'échelle du calcul au moment de l'évaluation

Résumé

Le raisonnement constitue une capacité fondamentale des grands modèles linguistiques, pourtant la compréhension de la manière dont ces modèles apprennent et réalisent un raisonnement en plusieurs étapes reste un problème ouvert. Dans cette étude, nous explorons l’impact des différentes architectures et des méthodes d’entraînement sur la capacité des modèles à raisonner de manière séquentielle, dans le cadre d’un automate cellulaire. En entraînant les modèles sur des séquences d’états générées à partir de fonctions booléennes aléatoires à partir de conditions initiales aléatoires — afin d’éliminer tout effet de mémorisation —, nous montrons que la plupart des architectures neuronales parviennent à extraire les règles sous-jacentes. Bien que les modèles atteignent une précision élevée dans la prédiction de l’état suivant, leur performance diminue fortement lorsqu’un raisonnement en plusieurs étapes est requis. Nous confirmons que l’augmentation de la profondeur du modèle joue un rôle crucial dans les calculs séquentiels. Nous démontrons qu’une extension de la profondeur effective du modèle, grâce à la récurrence, à la mémoire et à l’échelle du calcul au moment de l’évaluation (test-time compute), améliore de manière significative ses capacités de raisonnement.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Au-delà de la mémorisation : approfondir le raisonnement grâce à la récurrence, à la mémoire et à l'échelle du calcul au moment de l'évaluation

Ivan Rodkin Daniil Orel Konstantin Smirnov Arman Bolatov Bilal Elbouardi Besher Hassan Yuri Kuratov Aydar Bulatov Preslav Nakov Timothy Baldwin2 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Ivan Rodkin Daniil Orel Konstantin Smirnov Arman Bolatov Bilal Elbouardi Besher Hassan Yuri Kuratov Aydar Bulatov Preslav Nakov Timothy Baldwin