Optimisation des coûts d'attention et de contrôle cognitif à l'aide d'architectures stratifiées temporellement

Le cadre actuel d'apprentissage par renforcement se concentre exclusivement sur la performance, souvent au détriment de l'efficacité. À l'inverse, le contrôle biologique parvient à des performances remarquables tout en optimisant à la fois la dépense énergétique computationnelle et la fréquence des décisions. Nous proposons un Processus de Décision Borné de Markov (DB-MDP), qui limite le nombre de décisions et l'énergie computationnelle disponible aux agents dans les environnements d'apprentissage par renforcement. Nos expériences montrent que les algorithmes d'apprentissage par renforcement existants peinent dans ce cadre, conduisant soit à un échec, soit à une performance sous-optimale. Pour remédier à cela, nous introduisons une Architecture Temporellement Stratifiée (TLA), inspirée du fonctionnement biologique, permettant aux agents de gérer leurs coûts computationnels grâce à deux couches fonctionnant à des échelles de temps et des besoins énergétiques distincts. La TLA atteint une performance optimale dans les environnements à nombre de décisions limité, et dans les environnements de contrôle continu, elle égale les performances de l'état de l'art tout en utilisant une fraction négligeable des ressources computationnelles. Contrairement aux algorithmes d'apprentissage par renforcement actuels, qui privilégient uniquement la performance, notre approche réduit de manière significative la consommation énergétique computationnelle tout en maintenant des performances élevées. Ces résultats établissent une référence et ouvrent la voie à des recherches futures sur le contrôle conscient de l'énergie et du temps.