Wissensgraphen-basierte menschenähnliche Gedächtnissysteme zur Lösung von teilbeobachtbaren Markov-Entscheidungsprozessen

Menschen beobachten zu jedem Zeitpunkt nur einen Teil ihrer Umgebung, können jedoch trotzdem komplexe, langfristige Entscheidungen treffen, dank unseres Langzeitgedächtnisses. Um zu testen, wie eine KI lernen und ihr Langzeitgedächtnis nutzen kann, haben wir eine teilweise beobachtbare Markov-Entscheidungsprozess-Umgebung (POMDP) entwickelt, in der das Agent Fragen beantworten muss, während es sich durch ein Labyrinth navigiert. Diese Umgebung basiert vollständig auf einem Wissensgraphen (KG), wobei die verborgenen Zustände dynamische Wissensgraphen sind. Ein Wissensgraph ist sowohl für Menschen als auch für Maschinen lesbar, was es erleichtert, zu sehen, was die Agenten sich merken und vergessen. Wir trainieren und vergleichen Agenten mit verschiedenen Gedächtnissystemen, um Licht auf die Funktionsweise menschlicher Gehirne bei der Verwaltung ihres eigenen Gedächtnisses zu werfen. Durch die Neuausrichtung des gegebenen Lernziels auf das Erlernen einer Gedächtnisverwaltungsstrategie konnten wir den wahrscheinlichsten verborgenen Zustand erfassen, der nicht nur interpretierbar ist, sondern auch wiederverwendbar.