
초록
세계 모델은 학습 에이전트가 상호작용적이고 맥락에 맞는 환경에서 효율적으로 작동할 수 있도록 도와준다. 본 연구는 텍스트 기반 게임 환경의 세계 모델 구축이라는 과제에 초점을 맞추고 있다. 텍스트 기반 게임, 또는 상호작용적 서사(Interactive Narratives)는 에이전트가 자연어 텍스트를 통해 환경을 인지하고 상호작용하는 강화 학습 환경을 의미한다. 이러한 환경은 수백 개의 캐릭터, 장소, 물체로 구성된 세계 속에서 긴 다단계 퍼즐이나 탐험 미션들이 복잡하게 얽혀 있다. 우리의 세계 모델은 동시에 다음 두 가지를 학습한다: (1) 세계를 지식 그래프(knowledge graph)로 표현할 때, 에이전트의 행동에 의해 발생하는 세계의 변화를 예측하는 것; 그리고 (2) 세계에서 효과적으로 운영하기 위해 필요한 맥락에 부합하는 자연어 행동 시퀀스를 생성하는 것. 우리는 지식 그래프와 행동의 내재적 구조를 활용하여 이 과제를 '시퀀스 집합 생성 문제(Sequence of Sequences generation problem)'로 재정의하고, 트랜스포머 기반의 다중 작업 아키텍처와 이를 학습시키기 위한 손실 함수를 제안한다. 새로운 텍스트 기반 세계에 대해 제로샷(Zero-shot) 추론 실험을 수행한 결과, 기존의 텍스트 기반 세계 모델링 기법들과 비교하여 본 연구의 방법론이 유의미하게 우수함을 확인하였으며, 본 연구의 각 구성 요소가 가지는 중요성 또한 입증되었다.