2달 전
텍스트 기반 RL 에이전트와 상식 지식: 새로운 도전, 환경 및 베이스라인
Keerthiram Murugesan; Mattia Atzeni; Pavan Kapanipathi; Pushkar Shukla; Sadhana Kumaravel; Gerald Tesauro; Kartik Talamadupula; Mrinmaya Sachan; Murray Campbell

초록
텍스트 기반 게임은 강화학습(RL) 연구의 중요한 테스트 플랫폼으로 부상하여, RL 에이전트가 지식 기반 언어 이해와 순차적 의사결정을 결합해야 하는 환경을 제공합니다. 본 논문에서는 RL 에이전트에 상식 지식을 주입하는 문제를 검토합니다. 이러한 상식 지식은 에이전트가 비현실적인 행동을 제거하여 효율적으로 행동할 수 있게 하며, 현재 행동이 미래의 세계 상태에 어떻게 영향을 미칠지 예측하기 위한 전략적 계획을 수행할 수 있도록 합니다. 우리는 객체, 그들의 속성, 그리고 가능성을 포함한 특정 유형의 상식 지식으로 RL 에이전트를 훈련하고 평가하기 위한 새로운 텍스트 기반 게임 환경인 TextWorld Commonsense (TWC)를 설계하였습니다. 또한, 순차적 맥락을 추적하고 ConceptNet에서 관련 상식 지식을 동적으로 검색하는 여러 베이스라인 RL 에이전트를 소개합니다. 우리는 TWC에서 상식 지식을 통합한 에이전트들이 더 나은 성능을 보이며, 더 효율적으로 행동함을 입증하였습니다. 사용자 연구를 통해 TWC에서 인간의 성능을 추정하였으며, 앞으로 개선 여지가 충분히 있음을 보여주었습니다.