Utilisation de systèmes de mémoire humanoïdes basés sur des graphes de connaissances pour résoudre des processus de décision markoviens partiellement observables

Les humains ne perçoivent qu'une partie de leur environnement à tout moment, mais peuvent néanmoins prendre des décisions complexes et à long terme grâce à notre mémoire à long terme. Pour tester comment une intelligence artificielle peut apprendre et utiliser sa mémoire à long terme, nous avons développé un environnement basé sur les processus de décision de Markov partiellement observables (POMDP), où l'agent doit répondre à des questions tout en naviguant dans un labyrinthe. Cet environnement est entièrement basé sur un graphe de connaissances (KG), où les états cachés sont des graphes de connaissances dynamiques. Un graphe de connaissances est à la fois lisible par les humains et les machines, ce qui facilite la visualisation de ce que les agents retiennent et oublient. Nous entraînons et comparons des agents dotés de différents systèmes de mémoire, afin d'éclairer le fonctionnement des cerveaux humains lorsqu'il s'agit de gérer leur propre mémoire. En réorientant l'objectif d'apprentissage donné vers l'apprentissage d'une politique de gestion de la mémoire, nous avons réussi à capturer l'état caché le plus probable, qui non seulement est interprétable mais également réutilisable.