2ヶ月前
部分観測マルコフ決定過程を解くために、知識グラフベースの人間のような記憶システムの活用
Taewoon Kim; Vincent François-Lavet; Michael Cochez

要約
人間は任意の瞬間に環境の一部しか観察できませんが、長期記憶のおかげで複雑な長期的な決定を下すことができます。AIがどのように学習し、その長期記憶を利用するかをテストするために、部分的に観測可能なマルコフ決定過程(POMDP)環境を開発しました。この環境では、エージェントは迷路をナビゲートしながら質問に答える必要があります。環境は完全に知識グラフ(KG)に基づいており、隠れた状態は動的なKGです。KGは人間と機械の両方が読み取ることができ、エージェントが何を覚えて何を忘れるかを容易に確認できます。異なる記憶システムを持つエージェントを訓練し比較することで、人間の脳が自身の記憶を管理する際の働き方について光を当てることができます。与えられた学習目標を記憶管理ポリシーの学習に再利用することにより、最も尤もらしい隠れた状態を捉えることができました。これは解釈可能であるだけでなく、再利用も可能です。