2달 전

지식 그래프 기반 인간 유사 메모리 시스템을 활용한 부분 관측 가능한 마르코프 결정 과정 해결 방법

Taewoon Kim; Vincent François-Lavet; Michael Cochez
지식 그래프 기반 인간 유사 메모리 시스템을 활용한 부분 관측 가능한 마르코프 결정 과정 해결 방법
초록

인간은 언제나 환경의 일부만 관찰하지만, 장기 기억 덕분에 복잡하고 장기적인 결정을 내릴 수 있습니다. AI가 어떻게 학습하여 장기 기억을 활용하는지 테스트하기 위해, 에이전트가 미로를 탐색하면서 질문에 답해야 하는 부분적으로 관찰 가능한 마르코프 결정 과정(POMDP) 환경을 개발했습니다. 이 환경은 완전히 지식 그래프(KG) 기반으로, 숨겨진 상태는 동적 지식 그래프입니다. 지식 그래프는 인간과 컴퓨터 모두 읽을 수 있어, 에이전트가 기억하고 잊는 내용을 쉽게 파악할 수 있습니다. 우리는 다양한 기억 시스템을 가진 에이전트들을 훈련시키고 비교함으로써, 인간 뇌가 자신의 기억을 관리할 때 어떻게 작동하는지를 밝히려고 합니다. 주어진 학습 목표를 기억 관리 정책 학습으로 재해석함으로써, 해석 가능하며 재사용 가능한 가장 가능성이 높은 숨겨진 상태를 포착할 수 있었습니다.

지식 그래프 기반 인간 유사 메모리 시스템을 활용한 부분 관측 가능한 마르코프 결정 과정 해결 방법 | 최신 연구 논문 | HyperAI초신경