2달 전
지식 그래프 기반 인간 유사 메모리 시스템을 활용한 부분 관측 가능한 마르코프 결정 과정 해결 방법
Taewoon Kim; Vincent François-Lavet; Michael Cochez

초록
인간은 언제나 환경의 일부만 관찰하지만, 장기 기억 덕분에 복잡하고 장기적인 결정을 내릴 수 있습니다. AI가 어떻게 학습하여 장기 기억을 활용하는지 테스트하기 위해, 에이전트가 미로를 탐색하면서 질문에 답해야 하는 부분적으로 관찰 가능한 마르코프 결정 과정(POMDP) 환경을 개발했습니다. 이 환경은 완전히 지식 그래프(KG) 기반으로, 숨겨진 상태는 동적 지식 그래프입니다. 지식 그래프는 인간과 컴퓨터 모두 읽을 수 있어, 에이전트가 기억하고 잊는 내용을 쉽게 파악할 수 있습니다. 우리는 다양한 기억 시스템을 가진 에이전트들을 훈련시키고 비교함으로써, 인간 뇌가 자신의 기억을 관리할 때 어떻게 작동하는지를 밝히려고 합니다. 주어진 학습 목표를 기억 관리 정책 학습으로 재해석함으로써, 해석 가능하며 재사용 가능한 가장 가능성이 높은 숨겨진 상태를 포착할 수 있었습니다.