2 个月前

利用基于知识图谱的人类记忆系统解决部分可观测马尔可夫决策过程

Taewoon Kim; Vincent François-Lavet; Michael Cochez
利用基于知识图谱的人类记忆系统解决部分可观测马尔可夫决策过程
摘要

人类在任何时刻只能观察到周围环境的一部分,但仍然能够做出复杂的长期决策,这得益于我们的长期记忆。为了测试人工智能如何学习和利用其长期记忆,我们开发了一个部分可观测的马尔可夫决策过程(POMDP)环境,在该环境中,智能体需要在导航迷宫的同时回答问题。该环境完全基于知识图谱(KG),其中隐藏状态是动态的知识图谱。知识图谱既可供人类阅读,也可供机器读取,这使得我们可以轻松地了解智能体记住和忘记的内容。我们训练并比较了具有不同记忆系统的智能体,以揭示人类大脑在管理自身记忆时的工作机制。通过将给定的学习目标重新定义为学习一种记忆管理策略,我们成功捕捉到了最可能的隐藏状态,这种状态不仅具有可解释性,而且可以重复使用。

利用基于知识图谱的人类记忆系统解决部分可观测马尔可夫决策过程 | 最新论文 | HyperAI超神经